[發明專利]建立實體關系檢測模型的方法以及裝置有效
| 申請號: | 202010064172.0 | 申請日: | 2020-01-20 |
| 公開(公告)號: | CN111274397B | 公開(公告)日: | 2023-10-27 |
| 發明(設計)人: | 王春宇;夏源;施振輝;黃海峰;陸超 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/214;G06F18/25;G06F40/279;G06F40/205 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 建立 實體 關系 檢測 模型 方法 以及 裝置 | ||
本申請公開了一種建立實體關系檢測模型的方法、裝置、電子設備以及計算機可讀存儲介質,涉及醫學實體檢測技術領域。本申請在建立實體關系檢測模型時所采用的實現方案為:獲取醫學文本數據;對所述醫學文本數據進行結構化解析,得到與不同疾病對應的結構化語料;根據所述結構化語料獲取訓練樣本,并構建所述訓練樣本中各醫學實體對的融合特征;利用所述各醫學實體對的融合特征訓練分類模型,直至所述分類模型收斂,得到實體關系檢測模型。本申請能夠降低醫學實體關系的檢測成本,并提升醫學實體關系的檢測準確性。
技術領域
本申請涉及數據處理技術領域,尤其涉及醫學實體檢測技術領域中的一種建立實體關系檢測模型的方法、裝置、電子設備以及計算機可讀存儲介質。
背景技術
近幾年來,人工智能技術得到了越來越廣泛的關注,作為其子領域的機器學習、深度學習等方法也被應用到各行各業當中。現在很多相關人士致力于人工智能醫療領域,研發出智能問診、智能分導診等互聯網醫療領域的產品。而對于這些產品來說,一定需要較好的醫學背景知識作為理論支撐,尤其是檢測醫學實體之間是否存在關系。但是,現有技術通常通過人工匹配的方式進行醫學實體關鍵的檢測,耗費較大人力和時間成本。
發明內容
本申請為解決技術問題所采用的技術方案是提供一種建立實體關系檢測模型的方法、裝置、電子設備以及計算機可讀介質,所述方法包括:獲取醫學文本數據;對所述醫學文本數據進行結構化解析,得到與不同疾病對應的結構化語料;根據所述結構化語料獲取訓練樣本,并構建所述訓練樣本中各醫學實體對的融合特征;利用所述各醫學實體對的融合特征訓練分類模型,直至所述分類模型收斂,得到實體關系檢測模型。本申請基于所獲取的與不同疾病對應的結構化語料,進而基于該結構化語料來獲取訓練樣本并構建醫學實體對的融合特征,降低了醫學實體關系的檢測成本,并提升醫學實體關系的檢測準確性。
根據本申請一優選實施例,所述與不同疾病對應的結構化語料包括:疾病、該疾病對應的標題以及各標題下所包含的段落內容。本步驟能夠豐富結構化語料所包含的信息,并符合醫學專家通過書籍檢測醫學實體關系的真實流程。
根據本申請一優選實施例,在得到與不同疾病對應的結構化語料之后,還包括:對所述結構化語料進行自然語言理解處理,挖掘出對應不同醫學類別的醫學實體;根據所述醫學實體,構建對應不同醫學類別的醫學實體空間。本步驟能夠獲取對應各類別的醫學實體空間,簡化訓練樣本的獲取步驟。
根據本申請一優選實施例,所述根據所述結構化語料獲取訓練樣本包括:獲取已知的醫學實體關系對,作為正樣本;從對應疾病類別的醫學實體空間中隨機抽取疾病實體,并從其他醫學類別的醫學實體空間中隨機抽取醫學實體;確定兩個醫學實體組成的醫學實體對是否屬于正樣本,若否,則將該醫學實體對作為負樣本;選取預設比例的正、負樣本作為所述訓練樣本。本步驟能夠豐富訓練樣本的數量,提升所建立的實體關系檢測模型的檢測準確性。
根據本申請一優選實施例,所述構建所述訓練樣本中各醫學實體對的融合特征包括:根據所述結構化語料,提取醫學實體對中各實體的字粒度特征、詞粒度特征以及實體之間的句子粒度特征;將各實體的字粒度特征輸入機器學習模型,將輸出結果與各實體的詞粒度特征結合之后,再輸入機器學習模型,將輸出結果與句子粒度特征相結合,將結合結果作為各醫學實體對的融合特征。本步驟能夠融合不同維度的特征,提升融合特征中所包含信息的豐富度。
根據本申請一優選實施例,在提取醫學實體對中實體之間的句子粒度特征時,包括:在所述結構化語料中檢索醫學實體對中與疾病對應的實體;確定該實體所屬段落內容的標題,獲取對應該標題的預設權重;將所述預設權重、實體之間的相似度以及實體之間的距離度量進行融合處理,將融合結果作為所述實體之間的句子粒度特征。本步驟能夠結合結構化語料來構建句子粒度特征,模擬醫學專家通過書籍檢測實體關系的真實流程,從而提升所提取的句子粒度特征的準確性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010064172.0/2.html,轉載請聲明來源鉆瓜專利網。





