[發(fā)明專利]聯(lián)合attention機(jī)制與神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)實(shí)體關(guān)系分類方法在審
| 申請?zhí)枺?/td> | 201810554915.5 | 申請日: | 2018-06-01 |
| 公開(公告)號: | CN108875809A | 公開(公告)日: | 2018-11-23 |
| 發(fā)明(設(shè)計(jì))人: | 林鴻飛;鄭巍 | 申請(專利權(quán))人: | 大連理工大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 大連智高專利事務(wù)所(特殊普通合伙) 21235 | 代理人: | 劉斌 |
| 地址: | 116023 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 生物醫(yī)學(xué) 實(shí)體關(guān)系 分類 神經(jīng)網(wǎng)絡(luò) 構(gòu)建 向量 單詞 句子 解析 數(shù)據(jù)挖掘技術(shù) 分類模型 分類問題 關(guān)系分類 候選實(shí)體 基本單位 模型輸入 文本處理 重要影響 權(quán)重 加權(quán) 嵌入 聯(lián)合 清晰 | ||
1.一種聯(lián)合attention機(jī)制與神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)實(shí)體關(guān)系分類方法,其特征在于,包括以下步驟:S1、基于指代解析的文本處理;S2、構(gòu)建基于attention機(jī)制的模型輸入向量;S3、構(gòu)建基于雙向LSTM的生物醫(yī)學(xué)實(shí)體關(guān)系分類模型;S4、利用關(guān)系分類模型進(jìn)行生物醫(yī)學(xué)實(shí)體關(guān)系分類。
2.根據(jù)權(quán)利要求1所述的一種聯(lián)合attention機(jī)制與神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)實(shí)體關(guān)系分類方法,其特征在于,所述的步驟:
S1、基于指代解析的文本處理:采集公開已標(biāo)注的數(shù)據(jù)集,利用文本處理技術(shù)對文本進(jìn)行初始化處理,利用基于following的指代解析處理和剪枝技術(shù)對句子進(jìn)行處理;
S2、構(gòu)建基于attention機(jī)制的模型輸入向量:所述模型輸入向量包括輸入特征向量、輸入attention向量和句子向量,其處理方法如下:
B1、輸入特征向量的構(gòu)建:給定一個剪枝的句子S={w1,w2,…,wi,…,wn},每個詞wi被表示成三個特征向量:詞自身word、詞的PoS標(biāo)記和位置,分別表示為以及和
B2、輸入attention向量的構(gòu)建:應(yīng)用attention機(jī)制到B1中的初始word嵌入向量以生成面向候選實(shí)體的word嵌入向量;利用兩個長度等于句子最大長度n的行向量αj來量化一個句子中每個單詞wi與第j個候選實(shí)體的相關(guān)程度因子,αj的定義如下公式所示:
其中,j∈{1,2},和分別是單詞wi與第j個候選實(shí)體ej的詞嵌入向量,score函數(shù)被看作面向候選實(shí)體的函數(shù),其定義如下:
其中,符號dot表示兩個向量和上的點(diǎn)積操作;m1是詞嵌入向量的維數(shù);相關(guān)程度因子和作用在單詞wi的最初詞嵌入向量上,二者的聯(lián)合作用αi表示為αi作用到最初詞嵌入向量上看作是面向候選實(shí)體的詞嵌入向量其定義表示為其中符號*表示按位計(jì)算的乘法;
B3、句子向量的構(gòu)建:
構(gòu)建向量用以表示單詞wi的語義,其中xi∈Rm,m=m1+m2+2m3,m2和m3分別是PoS和位置嵌入向量的維數(shù);“||”表示連接操作;句子S表示成一個實(shí)值向量數(shù)組Semb=[x1,x2,…,xi,...,xn];
S3、構(gòu)建基于雙向LSTM的生物醫(yī)學(xué)實(shí)體關(guān)系分類模型:利用雙向帶有長短術(shù)語存儲單元的循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行有監(jiān)督學(xué)習(xí)建模;包括:嵌入層,輸入attention層,合并層,雙向LSTM層;利用帶有softmax函數(shù)的邏輯斯諦回歸分類器作為候選實(shí)例的分類器;softmax函數(shù)以雙向LSTM層的輸出hn作為輸入,其輸出y表示候選實(shí)例在每個不同的關(guān)系類別標(biāo)簽上的概率分布;第j類標(biāo)簽的概率分布表示為p(y=j(luò)|S)=softmax(hnWs+bs),S表示句子,Ws是需要學(xué)習(xí)的權(quán)重矩陣,bs是需要學(xué)習(xí)的偏置向量;概率最大的類別對應(yīng)的標(biāo)簽為候選實(shí)例的關(guān)系類型,表示為其中C是生物語料中分類可能有的標(biāo)簽的集合;設(shè)定用于預(yù)測誤差的損失函數(shù)為交叉熵?fù)p失函數(shù)l是訓(xùn)練集中標(biāo)注的樣本數(shù),上標(biāo)k表示第k個被分類的句子,θ為模型中的所有參數(shù);
S4、預(yù)測生物醫(yī)學(xué)實(shí)體關(guān)系:利用步驟S1中的方法對文本進(jìn)行初始處理、指代解析和剪枝;然后利用步驟S2中B1的方法,分別獲取句子中的單詞、每個單詞的PoS標(biāo)簽以及當(dāng)前單詞與兩個實(shí)體的相對距離,查相應(yīng)向量字典得到這些特征的索引符號;基于輸入,模型會輸出每對關(guān)系實(shí)例在各個類別上的概率值,其中概率值最大的那一類即為候選實(shí)例對應(yīng)的類別標(biāo)簽,從而得到實(shí)體間的關(guān)系類型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連理工大學(xué),未經(jīng)大連理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810554915.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 從聚合生物醫(yī)學(xué)裝置中萃取可萃取材料的裝置、組合件和方法
- 基于生物可吸收基質(zhì)的可植入生物醫(yī)學(xué)裝置
- 基于生物可吸收基質(zhì)的可植入生物醫(yī)學(xué)裝置
- 基于生物可吸收基質(zhì)的可植入生物醫(yī)學(xué)裝置
- 用于生物醫(yī)學(xué)模擬的系統(tǒng)和方法
- 一種生物醫(yī)學(xué)知識庫的信息更新方法及系統(tǒng)
- 基于上下文向量圖核的生物醫(yī)學(xué)實(shí)體關(guān)系分類方法
- 生物醫(yī)學(xué)實(shí)體展示平臺的構(gòu)建方法、裝置和計(jì)算機(jī)設(shè)備
- 基于預(yù)訓(xùn)練模型和自注意力機(jī)制的生物醫(yī)學(xué)關(guān)系抽取方法
- 基于文獻(xiàn)的癌癥相關(guān)生物醫(yī)學(xué)事件數(shù)據(jù)庫構(gòu)建方法
- 對實(shí)體關(guān)系模式進(jìn)行聚類、提取的方法和設(shè)備
- 實(shí)體關(guān)系分類裝置和實(shí)體關(guān)系分類方法
- 一種實(shí)體關(guān)系的圖形構(gòu)建方法及裝置
- 一種實(shí)體關(guān)系的存儲方法及設(shè)備
- 一種基于神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系補(bǔ)全方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 實(shí)體關(guān)系的存儲方法及裝置
- 實(shí)體關(guān)系抽取模型的訓(xùn)練方法和抽取實(shí)體關(guān)系的方法
- 一種實(shí)體關(guān)系識別方法、裝置及設(shè)備
- 實(shí)體關(guān)系抽取方法、實(shí)體關(guān)系學(xué)習(xí)模型的獲取方法及設(shè)備
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





