[發(fā)明專利]基于三層條件隨機場的疾病數(shù)據(jù)命名實體識別方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201710906128.8 | 申請日: | 2017-09-29 |
| 公開(公告)號: | CN107818083A | 公開(公告)日: | 2018-03-20 |
| 發(fā)明(設(shè)計)人: | 趙淦森;劉創(chuàng)輝;王欣明;夏慧敏;梁會營;劉廣建;莊序填;席云;伍昱燊;余達明;唐華;龐雄文;聶瑞華 | 申請(專利權(quán))人: | 華南師范大學;廣州市婦女兒童醫(yī)療中心(廣州市婦幼保健院;廣州市兒童醫(yī)院;廣州市婦嬰醫(yī)院) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 廣州嘉權(quán)專利商標事務(wù)所有限公司44205 | 代理人: | 胡輝 |
| 地址: | 510631 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 三層 條件 隨機 疾病 數(shù)據(jù) 命名 實體 識別 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及命名實體識別領(lǐng)域,尤其涉及基于三層條件隨機場的疾病數(shù)據(jù)命名實體識別方法及系統(tǒng)。
背景技術(shù)
條件隨機場模型是自然語言處理領(lǐng)域常用的模型之一,廣泛應(yīng)用于句法分析、詞性標注、命名實體識別等。條件隨機場是一個無向圖模型,最常用的結(jié)構(gòu)為線性鏈結(jié)構(gòu),該模型有效的克服了隱馬爾可夫模型條件獨立性假設(shè)及最大熵模型標注偏置的問題,可以使用字、詞、詞性等上下文特征,也可以引用字典和規(guī)則等外部特征。在命名實體識別的研究中,條件隨機場在英文實體識別的應(yīng)用已經(jīng)非常成熟,在國內(nèi),在中文命名實體的識別應(yīng)用中的研究相對較少,特別是對醫(yī)學領(lǐng)域的實體識別,利用條件隨機場對疾病數(shù)據(jù)進行命名實體的識別,是一個非常有研究價值的方向。
目前命名實體識別工作大都使用單層模型和一些規(guī)則策略相結(jié)合的方式,而在單層模型方面,條件隨機場的效果比其他模型效果更好。但在復雜的實體識別中,單層條件隨機場模型需要考慮數(shù)據(jù)在全局的分布,還因為特征選取多、訓練參數(shù)多、訓練代價大、復雜度高,所以導致單層條件隨機場模型在復雜的實體識別方面效果不理想。在兒童疾病數(shù)據(jù)方面,兒童疾病中復雜的命名實體結(jié)構(gòu)復雜,長度不一,用傳統(tǒng)的單層模型識別方法實體準確率較低,在特征選取方面不能發(fā)揮較好的優(yōu)勢,導致實體識別效果不佳。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,本發(fā)明的目的是提供一種高效率和高準確度的兒童疾病數(shù)據(jù)命名實體識別方法。
本發(fā)明的另一目的是提供一種高效率和高準確度的兒童疾病數(shù)據(jù)命名實體識別系統(tǒng)。
本發(fā)明方法所采用的技術(shù)方案是:基于三層條件隨機場的疾病數(shù)據(jù)命名實體識別方法,包括以下步驟:
獲取兒童疾病文本數(shù)據(jù),將兒童疾病文本數(shù)據(jù)輸入三層條件隨機場模型的第一層進行記錄信息識別,輸出第一層識別文本數(shù)據(jù);
將第一層識別文本數(shù)據(jù)輸入三層條件隨機場模型的第二層進行簡單命名實體識別,輸出第二層識別文本數(shù)據(jù);
將第二層識別文本數(shù)據(jù)輸入三層條件隨機場模型的第三層進行復雜命名實體識別,輸出最終命名實體識別結(jié)果。
進一步,所述記錄信息為兒童疾病文本數(shù)據(jù)中記錄有疾病數(shù)據(jù)命名實體的句子信息,所述三層條件隨機場模型的第二層對簡單部位名稱和基本疾病名稱進行實體識別,所述三層條件隨機場模型的第三層對部位名稱、疾病名稱以及癥狀名稱進行實體識別。
進一步,所述獲取兒童疾病文本數(shù)據(jù),將兒童疾病文本數(shù)據(jù)輸入三層條件隨機場模型的第一層進行記錄信息識別,輸出第一層識別文本數(shù)據(jù)這一步驟具體包括以下步驟:
獲取兒童疾病文本數(shù)據(jù),從兒童疾病文本數(shù)據(jù)中獲取第一訓練集和第一測試集;
對第一訓練集和第一測試集進行句子標識;
獲取第一訓練特征并生成第一訓練特征函數(shù),獲取第一測試特征并生成第一測試特征函數(shù);
對第一訓練集進行參數(shù)估計,結(jié)合第一訓練特征和第一訓練特征函數(shù)進行三層條件隨機場模型的第一層條件隨機場學習;
根據(jù)三層條件隨機場模型的第一層條件隨機場學習結(jié)果生成第一條件隨機場訓練模型;
用第一條件隨機場訓練模型對第一訓練集進行記錄信息識別,并輸出記錄信息識別文本數(shù)據(jù),所述記錄信息識別文本數(shù)據(jù)作為三層條件隨機場模型的第二層訓練集的輸入;
結(jié)合第一測試特征和第一測試特征函數(shù),利用第一條件隨機場訓練模型對第一測試集進行測試,輸出記錄信息測試文本數(shù)據(jù),所述記錄信息測試文本數(shù)據(jù)作為三層條件隨機場模型的第二層測試集的輸入。
進一步,所述第一訓練特征或第一測試特征包括句子特征、句子邊界特征以及第一上下文特征。
進一步,所述對第一訓練集和第一測試集進行句子標識這一步驟包括對第一訓練集進行句子語料標注的步驟,所述對第一訓練集進行句子語料標注的步驟具體包括以下步驟:
獲取8種標簽:MB、ME、C、R、G、K、H和O;其中,MB、ME、C、R、G、K、H和O分別代表病歷記錄開頭、病歷記錄結(jié)尾、診斷屬性、入院情況屬性、病程與診療結(jié)果屬性、出院情況屬性、出院醫(yī)囑屬性和其他;
用所述8種標簽對第一訓練集進行標注。
進一步,所述將第一層識別文本數(shù)據(jù)輸入三層條件隨機場模型的第二層進行簡單命名實體識別,輸出第二層識別文本數(shù)據(jù)這一步驟具體包括以下步驟:
從記錄信息識別文本數(shù)據(jù)中獲取第二訓練集,從記錄信息測試文本數(shù)據(jù)中獲取第二測試集;
對第二訓練集和第二測試集進行簡單命名實體標識;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南師范大學;廣州市婦女兒童醫(yī)療中心(廣州市婦幼保健院、廣州市兒童醫(yī)院、廣州市婦嬰醫(yī)院),未經(jīng)華南師范大學;廣州市婦女兒童醫(yī)療中心(廣州市婦幼保健院、廣州市兒童醫(yī)院、廣州市婦嬰醫(yī)院)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710906128.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 限制條件解決方法、限制條件解決裝置、以及限制條件解決系統(tǒng)
- 制造條件設(shè)定系統(tǒng)及制造條件設(shè)定方法
- 成形條件確定方法及成形條件確定系統(tǒng)
- 成形條件設(shè)定裝置、成形條件設(shè)定方法及成形條件設(shè)定畫面
- 攝影條件設(shè)定設(shè)備、攝影條件設(shè)定方法和攝影條件設(shè)定程序
- 生理條件監(jiān)視系統(tǒng)、生理條件傳感器和生理條件儀表
- 成形條件設(shè)定裝置、成形條件設(shè)定方法及成形條件設(shè)定畫面
- 條件訪問設(shè)備
- 用于條件切換的裝置、方法、介質(zhì)和系統(tǒng)
- 基于條件分布的條件生成對抗網(wǎng)絡(luò)





