[發(fā)明專利]基于模型的縮寫數(shù)據(jù)的實(shí)體識別方法、裝置和計(jì)算機(jī)設(shè)備有效
| 申請?zhí)枺?/td> | 202010941630.4 | 申請日: | 2020-09-09 |
| 公開(公告)號: | CN112036172B | 公開(公告)日: | 2022-04-15 |
| 發(fā)明(設(shè)計(jì))人: | 顧大中;張圣 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/247;G06F16/33;G06F16/36;G06N3/08 |
| 代理公司: | 深圳市明日今典知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44343 | 代理人: | 王杰輝;熊成龍 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 模型 縮寫 數(shù)據(jù) 實(shí)體 識別 方法 裝置 計(jì)算機(jī) 設(shè)備 | ||
本申請涉及人工智能,提供一種基于模型的縮寫數(shù)據(jù)的實(shí)體識別方法、裝置和計(jì)算機(jī)設(shè)備,獲取醫(yī)學(xué)文本;查找醫(yī)學(xué)文本中出現(xiàn)的所有縮寫?全稱對數(shù)據(jù);判斷指定縮寫?全稱對中的第一全稱,是否為指定醫(yī)學(xué)字典中第一醫(yī)學(xué)概念的醫(yī)學(xué)別名;若否,判斷指定縮寫?全稱對中的第一縮寫是否為指定醫(yī)學(xué)字典中第二醫(yī)學(xué)概念的醫(yī)學(xué)別名;若是,獲取第二醫(yī)學(xué)概念包含的所有醫(yī)學(xué)別名;將第一全稱與指定醫(yī)學(xué)別名輸入至孿生網(wǎng)絡(luò)模型中,獲取第一全稱與指定醫(yī)學(xué)別名的指定相似度數(shù)值;根據(jù)指定相似度數(shù)值,判斷在第二醫(yī)學(xué)概念包含的所有醫(yī)學(xué)別名中是否存在與第一全稱意思相同的醫(yī)學(xué)別名;若是,判定第一縮寫屬于醫(yī)學(xué)實(shí)體。本申請?zhí)岣吡丝s寫數(shù)據(jù)的實(shí)體識別的準(zhǔn)確性。
技術(shù)領(lǐng)域
本申請涉及人工智能技術(shù)領(lǐng)域,具體涉及一種基于模型的縮寫數(shù)據(jù)的實(shí)體識別方法、裝置和計(jì)算機(jī)設(shè)備。
背景技術(shù)
近年來,隨著網(wǎng)絡(luò)和醫(yī)療信息技術(shù)的快速發(fā)展,醫(yī)療互聯(lián)網(wǎng)逐漸興起,醫(yī)療行業(yè)大數(shù)據(jù)也逐漸產(chǎn)生,人們開始探討和學(xué)習(xí)如何利用大數(shù)據(jù)提高醫(yī)療行業(yè)的經(jīng)營管理與服務(wù)。而醫(yī)療大數(shù)據(jù)的利用分析和挖掘的前提和基礎(chǔ)之一是醫(yī)學(xué)文本中相關(guān)醫(yī)學(xué)實(shí)體的識別,且醫(yī)學(xué)文本中相關(guān)醫(yī)學(xué)實(shí)體的識別是醫(yī)療大數(shù)據(jù)應(yīng)用的基礎(chǔ)工作。
目前,在對醫(yī)學(xué)文本中的縮寫-全稱對數(shù)據(jù)內(nèi)的縮寫數(shù)據(jù)進(jìn)行實(shí)體識別時(shí),通常是采用基于醫(yī)學(xué)字典進(jìn)行實(shí)體識別的方式,具體是通過判斷某個(gè)縮寫-全稱對數(shù)據(jù)中包含的全稱詞語是否屬于醫(yī)學(xué)實(shí)體,來間接判斷與全稱詞語對應(yīng)的縮寫詞語是否屬于醫(yī)學(xué)實(shí)體。如果判斷出該全稱詞語能夠?qū)?yīng)上醫(yī)學(xué)字典中的某個(gè)醫(yī)學(xué)概念的醫(yī)學(xué)別名,即全稱詞語與醫(yī)學(xué)字典中的某個(gè)醫(yī)學(xué)概念的醫(yī)學(xué)別名相同,則會(huì)判定該全稱詞語屬于醫(yī)學(xué)實(shí)體,并依此判定與該全稱詞語對應(yīng)的縮寫詞語也屬于醫(yī)學(xué)實(shí)體,且該縮寫詞語是與上述醫(yī)學(xué)概念對應(yīng)的醫(yī)學(xué)實(shí)體。但如果判斷出該全稱詞語與醫(yī)學(xué)字典中的所有醫(yī)學(xué)概念的每一個(gè)醫(yī)學(xué)別名均不相同,則會(huì)直接判定該全稱詞語不屬于醫(yī)學(xué)實(shí)體,從而判定與該全稱詞語對應(yīng)的縮寫詞語不屬于醫(yī)學(xué)實(shí)體。但是,醫(yī)學(xué)字典的容量是有限的,醫(yī)學(xué)文本中實(shí)際可能表示醫(yī)學(xué)實(shí)體的全稱數(shù)據(jù)的形式卻近乎是無限的,很多醫(yī)學(xué)文本中出現(xiàn)的屬于醫(yī)學(xué)實(shí)體的全稱數(shù)據(jù)并沒有被記錄在醫(yī)學(xué)字典中。這使得僅僅通過使用醫(yī)學(xué)字典來判斷醫(yī)學(xué)文本中的縮寫-全稱對數(shù)據(jù)內(nèi)的縮寫數(shù)據(jù)是否屬于醫(yī)學(xué)實(shí)體的方式,容易造成很大的識別誤差,如果把沒有出現(xiàn)在醫(yī)學(xué)字典中,但本屬于醫(yī)學(xué)實(shí)體的全稱數(shù)據(jù)誤判為非醫(yī)學(xué)實(shí)體,那么也將會(huì)將縮寫-全稱對數(shù)據(jù)中的與該被誤判的全稱數(shù)據(jù)也誤判為非醫(yī)學(xué)實(shí)體。因此,現(xiàn)有的對醫(yī)學(xué)文本中的縮寫-全稱對數(shù)據(jù)內(nèi)的縮寫數(shù)據(jù)進(jìn)行實(shí)體識別的方式存在識別準(zhǔn)確性較低的問題。
發(fā)明內(nèi)容
本申請的主要目的為提供一種基于模型的縮寫數(shù)據(jù)的實(shí)體識別方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì),旨在解決現(xiàn)有的對醫(yī)學(xué)文本中的縮寫-全稱對數(shù)據(jù)內(nèi)的縮寫數(shù)據(jù)進(jìn)行實(shí)體識別的方式存在識別準(zhǔn)確性較低的技術(shù)問題。
本申請?zhí)岢鲆环N基于模型的縮寫數(shù)據(jù)的實(shí)體識別方法,所述方法包括步驟:
獲取待識別的醫(yī)學(xué)文本;
通過預(yù)設(shè)算法查找出所述醫(yī)學(xué)文本中出現(xiàn)的所有縮寫-全稱對數(shù)據(jù);
判斷指定縮寫-全稱對中的第一全稱,是否為預(yù)設(shè)的指定醫(yī)學(xué)字典中第一醫(yī)學(xué)概念的醫(yī)學(xué)別名,其中,所述指定縮寫-全稱對為醫(yī)學(xué)文本中出現(xiàn)的所有縮寫-全稱對數(shù)據(jù)中的任意一個(gè)縮寫-全稱對,所述指定縮寫-全稱對包括第一全稱,以及與所述第一全稱對應(yīng)的第一縮寫;
若所述第一全稱不是所述指定醫(yī)學(xué)字典中第一醫(yī)學(xué)概念的醫(yī)學(xué)別名,則判斷所述第一縮寫是否為所述指定醫(yī)學(xué)字典中第二醫(yī)學(xué)概念的醫(yī)學(xué)別名;
若所述第一縮寫是所述第二醫(yī)學(xué)概念的醫(yī)學(xué)別名,則從所述指定醫(yī)學(xué)字典中獲取所述第二醫(yī)學(xué)概念包含的所有醫(yī)學(xué)別名;
將所述第一全稱與指定醫(yī)學(xué)別名輸入至預(yù)設(shè)的孿生網(wǎng)絡(luò)模型中,通過所述孿生網(wǎng)絡(luò)模型獲取所述第一全稱與所述指定醫(yī)學(xué)別名之間的指定相似度數(shù)值,其中,所述指定醫(yī)學(xué)別名為所述第二醫(yī)學(xué)概念包含的所有醫(yī)學(xué)別名中的任意一個(gè)醫(yī)學(xué)別名,所述孿生網(wǎng)絡(luò)模型為基于預(yù)先采集的具有標(biāo)注的樣本數(shù)據(jù)對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練后生成的;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010941630.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在語音識別和文本-語音引擎中處理縮寫詞和數(shù)字
- 存儲和搜索圖片的方法及其設(shè)備
- 基于上下文的首字母縮略詞和縮寫詞的歧義消除
- 服務(wù)器裝置、客戶端裝置、信息處理方法和記錄介質(zhì)
- 一種基于詞向量的縮寫詞歧義消除系統(tǒng)及方法
- 應(yīng)用啟動(dòng)方法及裝置
- 一種計(jì)算機(jī)中自動(dòng)生成英文論文標(biāo)題縮寫詞的方法
- 一種對參數(shù)中的縮寫詞進(jìn)行自動(dòng)擴(kuò)展的方法
- 代碼標(biāo)識符的歸一化方法、裝置
- 基于融入結(jié)構(gòu)化實(shí)體信息的縮寫項(xiàng)目名稱識別方法及電子裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





