[發(fā)明專(zhuān)利]一種面向醫(yī)療領(lǐng)域基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 201711446980.8 | 申請(qǐng)日: | 2017-12-27 |
| 公開(kāi)(公告)號(hào): | CN108170675A | 公開(kāi)(公告)日: | 2018-06-15 |
| 發(fā)明(設(shè)計(jì))人: | 朱聰慧;趙鐵軍;關(guān)毅;李岳 | 申請(qǐng)(專(zhuān)利權(quán))人: | 哈爾濱福滿科技有限責(zé)任公司 |
| 主分類(lèi)號(hào): | G06F17/27 | 分類(lèi)號(hào): | G06F17/27;G06N3/08 |
| 代理公司: | 哈爾濱市陽(yáng)光惠遠(yuǎn)知識(shí)產(chǎn)權(quán)代理有限公司 23211 | 代理人: | 劉景祥 |
| 地址: | 150001 黑龍江省哈爾濱*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 標(biāo)注 語(yǔ)料 命名實(shí)體 醫(yī)療領(lǐng)域 測(cè)試語(yǔ)料 記憶單元 評(píng)估標(biāo)準(zhǔn) 神經(jīng)網(wǎng)絡(luò)參數(shù) 路徑查找 訓(xùn)練過(guò)程 訓(xùn)練語(yǔ)料 評(píng)估 網(wǎng)絡(luò) 學(xué)習(xí) 更新 應(yīng)用 | ||
本發(fā)明提出了一種面向醫(yī)療領(lǐng)域基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法。該方法是通過(guò)一、利用醫(yī)療領(lǐng)域的有標(biāo)注語(yǔ)料中的訓(xùn)練語(yǔ)料進(jìn)行長(zhǎng)短期記憶單元網(wǎng)絡(luò)LSTM的訓(xùn)練;二、根據(jù)一中的更新的神經(jīng)網(wǎng)絡(luò)參數(shù)θ進(jìn)行標(biāo)注結(jié)果的路徑查找,得到有標(biāo)注語(yǔ)料的標(biāo)注結(jié)果,利用命名實(shí)體識(shí)別評(píng)估標(biāo)準(zhǔn)F值對(duì)有標(biāo)注語(yǔ)料中的測(cè)試語(yǔ)料的標(biāo)注結(jié)果進(jìn)行評(píng)估;三、在一中的訓(xùn)練過(guò)程中,先利用新聞?lì)I(lǐng)域的有標(biāo)注語(yǔ)料進(jìn)行長(zhǎng)短期記憶單元網(wǎng)絡(luò)LSTM的訓(xùn)練,再根據(jù)已經(jīng)訓(xùn)好的模型和醫(yī)療領(lǐng)域的有標(biāo)注語(yǔ)料,進(jìn)行醫(yī)療領(lǐng)域的模型的訓(xùn)練,利用命名實(shí)體識(shí)別評(píng)估標(biāo)準(zhǔn)F值對(duì)有標(biāo)注語(yǔ)料中的測(cè)試語(yǔ)料的標(biāo)注結(jié)果進(jìn)行評(píng)估等步驟實(shí)現(xiàn)的。本發(fā)明應(yīng)用于命名實(shí)體識(shí)別領(lǐng)域。
技術(shù)領(lǐng)域
本發(fā)明涉及命名實(shí)體識(shí)別方法,特別涉及一種面向醫(yī)療領(lǐng)域基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法。
背景技術(shù)
命名實(shí)體識(shí)別作為信息抽取的基本任務(wù)之一,在問(wèn)答系統(tǒng)、句法分析、機(jī)器翻譯等領(lǐng)域中都有重要應(yīng)用。醫(yī)療實(shí)體與普通實(shí)體區(qū)別較大,開(kāi)放領(lǐng)域?qū)嶓w標(biāo)注語(yǔ)料信息對(duì)醫(yī)療實(shí)體標(biāo)注作用甚微;同時(shí)醫(yī)療領(lǐng)域的實(shí)體識(shí)別又缺乏標(biāo)注語(yǔ)料,這主要是由于醫(yī)療實(shí)體的判斷需要專(zhuān)業(yè)人士來(lái)進(jìn)行,大大提高了醫(yī)療領(lǐng)域?qū)嶓w標(biāo)注的成本。因此,在醫(yī)療領(lǐng)域如何利用少量標(biāo)注語(yǔ)料進(jìn)行更好的標(biāo)注是十分重要的。
深度學(xué)習(xí)在近幾年取得了重大進(jìn)展,它已經(jīng)被證明能夠發(fā)掘出高維數(shù)據(jù)中的復(fù)雜結(jié)構(gòu)進(jìn)行學(xué)習(xí)。目前在自然語(yǔ)言處理領(lǐng)域中,一種新的詞表示方法:詞向量(wordembedding)取得了巨大成功。
詞向量(word embedding)是近年來(lái)常用來(lái)替代傳統(tǒng)詞袋(bag of word)的詞表示方法,解決了詞袋表示帶來(lái)的維數(shù)災(zāi)難問(wèn)題。研究人員還發(fā)現(xiàn),通過(guò)訓(xùn)練語(yǔ)言模型得到的詞向量蘊(yùn)含了詞匯的語(yǔ)義信息,還可以通過(guò)一些算法能夠在一定程度上得到詞匯的相似度等數(shù)據(jù)。此外,由于詞向量的訓(xùn)練無(wú)需任何標(biāo)注工作,所以圍繞詞向量進(jìn)行研究可以減少很多工作量,也可以按需訓(xùn)練:既可以使用大量開(kāi)放語(yǔ)料訓(xùn)練得到可泛用的良好的詞向量表示,也可以選擇同一領(lǐng)域的語(yǔ)料訓(xùn)練得到對(duì)某個(gè)領(lǐng)域?qū)S玫脑~向量,更可以根據(jù)任務(wù)直接進(jìn)行訓(xùn)練。
詞向量的訓(xùn)練一般使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行,而在自然語(yǔ)言處理領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) 模型是應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)之一。在自然語(yǔ)言處理領(lǐng)域,上文信息對(duì)下文的影響一般用語(yǔ)言模型來(lái)刻畫(huà),而RNN模型利用一個(gè)循環(huán)反饋的隱層很自然的利用了上文信息,而且在理論上可以使用到全部的上文信息,這是傳統(tǒng)語(yǔ)言模型不能做到的。但RNN模型在實(shí)際應(yīng)用中存在梯度消失的問(wèn)題,長(zhǎng)短期記憶單元(Long Short-Term Memory,LSTM)就是對(duì)于RNN的一個(gè)有效的改進(jìn)。LSTM針對(duì)RNN無(wú)法有效保留所需信息的現(xiàn)狀,使用了記憶單元(Memory Cell)記錄信息,并引入多個(gè)門(mén)(gate)控制記憶單元的更新和使用,使得所需的信息可以有效保存下來(lái)。LSTM現(xiàn)在已經(jīng)被廣泛應(yīng)用于從分詞、詞性標(biāo)注、命名實(shí)體識(shí)別到機(jī)器翻譯等自然語(yǔ)言處理任務(wù)中。
在深度神經(jīng)網(wǎng)絡(luò)中一個(gè)常用的技術(shù)是預(yù)訓(xùn)練技術(shù)。多個(gè)研究成果證明,使用大規(guī)模語(yǔ)料進(jìn)行無(wú)監(jiān)督訓(xùn)練得到的詞向量來(lái)初始化神經(jīng)網(wǎng)絡(luò)的參數(shù),要比隨機(jī)初始化訓(xùn)練可以得到更好的模型,這主要是由于預(yù)訓(xùn)練得到的詞向量可以利用大規(guī)模無(wú)標(biāo)注數(shù)據(jù),包含了訓(xùn)練數(shù)據(jù)中沒(méi)有的信息,且能在一定程度上防止隨機(jī)初始化的詞向量在優(yōu)化過(guò)程中陷入局部極值。對(duì)于訓(xùn)練數(shù)據(jù)稀缺的醫(yī)療領(lǐng)域來(lái)說(shuō),能夠利用大規(guī)模無(wú)標(biāo)注數(shù)據(jù)進(jìn)行輔助訓(xùn)練是極有意義的。
目前命名實(shí)體識(shí)別任務(wù)使用的模型主要有以CRF為代表的傳統(tǒng)模型和深度神經(jīng)網(wǎng)絡(luò)模型兩類(lèi),而在醫(yī)療領(lǐng)域一般還在使用傳統(tǒng)的CRF模型。
CRF模型由于不考慮語(yǔ)義信息,在訓(xùn)練語(yǔ)料極度缺乏的情況下,標(biāo)注結(jié)果中會(huì)出現(xiàn)大量的無(wú)意義的標(biāo)注結(jié)果,而LSTM模型蘊(yùn)含的語(yǔ)義信息可以防止這種情況發(fā)生。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決CRF模型由于不考慮語(yǔ)義信息,在訓(xùn)練語(yǔ)料極度缺乏的情況下,標(biāo)注結(jié)果中會(huì)出現(xiàn)大量的無(wú)意義的標(biāo)注結(jié)果的問(wèn)題,借助大規(guī)模的新聞?lì)I(lǐng)域語(yǔ)料,而提出的一種面向醫(yī)療領(lǐng)域基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于哈爾濱福滿科技有限責(zé)任公司,未經(jīng)哈爾濱福滿科技有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711446980.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語(yǔ)料庫(kù)數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲(chǔ)介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺(tái)的方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種語(yǔ)料提取器及提取語(yǔ)料的方法
- 軍事信息語(yǔ)料庫(kù)構(gòu)建方法及系統(tǒng)
- 待標(biāo)注語(yǔ)料的分配方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 語(yǔ)料泛化方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語(yǔ)料數(shù)據(jù)的處理方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備
- 一種擴(kuò)展語(yǔ)料挖掘方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 語(yǔ)料生成方法、語(yǔ)料生成裝置、和存儲(chǔ)介質(zhì)
- 短語(yǔ)語(yǔ)料獲取方法及短語(yǔ)語(yǔ)料獲取裝置
- 一種語(yǔ)料分類(lèi)方法、裝置及服務(wù)器
- 一種輸入方法、裝置和電子設(shè)備
- 命名實(shí)體識(shí)別方法及裝置
- 醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法及裝置
- 命名實(shí)體的識(shí)別方法、識(shí)別系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于外部知識(shí)的命名實(shí)體識(shí)別方法、系統(tǒng)及電子設(shè)備
- 數(shù)據(jù)處理方法、裝置及計(jì)算機(jī)終端
- 命名實(shí)體消歧方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 命名實(shí)體識(shí)別方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 命名實(shí)體歸一化處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于網(wǎng)絡(luò)分類(lèi)的命名實(shí)體識(shí)別方法
- 一種基于序列到序列架構(gòu)的命名實(shí)體識(shí)別方法





