[發(fā)明專利]一種面向醫(yī)療領域基于深度學習的命名實體識別方法在審
| 申請?zhí)枺?/td> | 201711446980.8 | 申請日: | 2017-12-27 |
| 公開(公告)號: | CN108170675A | 公開(公告)日: | 2018-06-15 |
| 發(fā)明(設計)人: | 朱聰慧;趙鐵軍;關毅;李岳 | 申請(專利權)人: | 哈爾濱福滿科技有限責任公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/08 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 劉景祥 |
| 地址: | 150001 黑龍江省哈爾濱*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 語料 命名實體 醫(yī)療領域 測試語料 記憶單元 評估標準 神經網絡參數 路徑查找 訓練過程 訓練語料 評估 網絡 學習 更新 應用 | ||
1.一種面向醫(yī)療領域基于深度學習的命名實體識別方法,其特征在于,該方法的具體步驟如下:
步驟一:利用無標注的醫(yī)療語料進行詞向量veci的訓練,獲得補充醫(yī)療領域語料的詞表voc和詞表voc對應的詞向量vec;vec=[vec1,vec2,…,vecn];voc=[voc1,voc2,…,vocn];其中i=1,2,…,n,n為無標注語料中的詞種類總個數;
步驟二:利用新聞領域的有標注語料中的訓練語料進行長短期記憶單元網絡LSTM的訓練;利用步驟一所述詞向量vec作為所述長短期記憶單元網絡LSTM的訓練的預訓練向量,利用LSTM方法根據所述預訓練向量以及xk、yk計算優(yōu)化目標利用梯度下降算法優(yōu)化進行LSTM的參數θC的更新;所述有標注語料包括訓練語料和測試語料,最后得到LSTM的參數其中,參數為LSTM模型參數θC的在最終第n次迭代收斂時的數值,具體包括:WX_in、Wh_in、Wc_in、WX_o、Wh_o、Wc_o、WX_f、Wh_f、Wc_f、bin、bo或bf;其中:Wx_in:隱層輸入門輸入權值參數;Wh_in:隱層輸入門狀態(tài)輸入權值參數;Wc_in:隱層記憶單元輸入權值參數;Wx_o:隱層輸出門輸入權值參數;Wh_o:隱層輸出門狀態(tài)輸入權值參數;Wc_o:隱層記憶單元輸出層權值參數;Wx_f:隱層遺忘門輸入權值參數;Wh_f:隱層遺忘門狀態(tài)輸入權值參數;Wc_f:隱層遺忘門記憶單元輸入權值參數;bin:隱層輸入門偏置參數;bo:隱層輸出門偏置參數;bf:隱層遺忘門偏置參數;
其中,xk為第k個樣例的有標注語料中的訓練語料對應的LSTM輸入的詞序列;yk為第k個樣例的有標注語料中的訓練語料對應的標注結果向量;
步驟三:利用醫(yī)學領域的有標注語料中的訓練語料進行長短期記憶單元網絡LSTM的訓練;利用步驟一得到的詞向量vec作為所述長短期記憶單元網絡LSTM的訓練的預訓練向量,利用LSTM方法根據所述預訓練向量以及xk、yk計算優(yōu)化目標利用梯度下降算法優(yōu)化進行LSTM的參數θ的更新;所述有標注語料包括訓練語料和測試語料;
其中,xk為第k個樣例的有標注語料中的訓練語料對應的LSTM輸入的詞序列;yk為第k個樣例的有標注語料中的訓練語料對應的標注結果向量;
步驟四:對參數更新后的LSTM進行測試,測試過程為:輸入步驟二和步驟三所述有標注語料,根據步驟二中的更新的神經網絡參數θC進行標注結果的路徑查找,得到有標注語料的標注結果;利用命名實體識別評估標準F值對有標注語料中的測試語料的標注結果進行評估,并獲得評估標注結果后的有標注預料,具體評估計算方法如下:
準確率=標注正確的實體詞數/標注的實體詞總數
召回率=標注正確的的實體詞數/實體詞總數
F值=2·準確率·召回率/(準確率+召回率)
步驟五、將有標注語料重復步驟二至步驟四,直至步驟四中所述命名實體識別評估標準F值不增加或重復步驟二和步驟四的次數達到最大值50~100次為止。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱福滿科技有限責任公司,未經哈爾濱福滿科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711446980.8/1.html,轉載請聲明來源鉆瓜專利網。





