[發明專利]腹部超聲文本數據的結構化知識網絡的構建方法有效
| 申請號: | 201811376501.4 | 申請日: | 2018-11-19 |
| 公開(公告)號: | CN109471950B | 公開(公告)日: | 2022-04-01 |
| 發明(設計)人: | 尚小溥;許吳環;張潤彤;朱曉敏;朱燊;苑舒婷;姜德友 | 申請(專利權)人: | 北京交通大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/289 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 黃曉軍 |
| 地址: | 100044 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 腹部 超聲 文本 數據 結構 知識 網絡 構建 方法 | ||
本發明提供了一種腹部超聲文本數據的結構化知識網絡的構建方法。該方法包括:利用分詞工具對中文的腹部超聲文本數據進行文本分詞處理,得到所述腹部超聲文本數據的文本集合;計算所述文本集合中不同文本之間的相似度,根據文本之間的相似度構建文本相似度矩陣,利用文本相似度矩陣實現所述腹部超聲文本數據的文本聚類,對文本聚類后的腹部超聲文本數據中的短句進行定位與映射;根據所述短句的定位與映射結果通過算法對所述腹部超聲文本數據進行實體、屬性和值的標記,基于實體、屬性和值構建所述腹部超聲文本數據的結構化知識網絡。本發明的方法建立的超聲檢查知識圖譜充分保留了超聲檢查知識,可結構化存儲,為更高層次的智能診斷決策應用場景提供數據基礎。
技術領域
本發明涉及文本結構化處理技術領域,尤其涉及一種腹部超聲文本數據的結構化知識網絡的構建方法。
背景技術
醫學病理文本作為一類重要的非結構化臨床文檔,對臨床診斷至關重要。在實際應用中,需要對中文的醫學病理文本數據進行結構化處理。
近年來國內開始有學者關注對電子病歷的文本挖掘工作。有研究專門針對中文電子病歷文本,在利用既有分詞工具基礎上的分詞方法,其精度最高可達78.06%;有研究以電子病歷文本為基礎,挖掘出院記錄部分潛在語義,但該研究只針對四種治療方案進行了評估,評估結果粒度較大,應用于臨床實踐的針對性不強;還有一些研究基于電子病歷開展臨床決策支持的相關探索。這些研究的重點多在電子病歷中的結構化和半結構化數據,或是較有針對性地抽取特定關鍵詞等信息,當前研究還缺少對非結構化醫療文本結構化處理,以及知識挖掘。
超聲檢查文本通常主要涉及肝、膽、胰、脾、腎五個器官的檢查內容,檢查記錄一般在200~300字左右,且包含較多的專用詞和習慣用語,文本復雜度較高。有研究基于信息抽取的思想,針對超聲檢查中的甲狀腺描述文本進行結構化處理,但其并未全面覆蓋超聲檢查文本,也沒有進一步建立起超聲檢查文本結構化后內容的關系網絡。
發明內容
本發明的實施例提供了一種腹部超聲文本數據的結構化知識網絡的構建方法,以實現有效地構建腹部超聲文本數據的知識網絡。
為了實現上述目的,本發明采取了如下技術方案。
一種腹部超聲文本數據的結構化知識網絡的構建方法,包括:
利用分詞工具對中文的腹部超聲文本數據進行文本分詞處理,得到所述腹部超聲文本數據的文本集合;
計算所述文本集合中不同文本之間的相似度,根據文本之間的相似度構建文本相似度矩陣,利用文本相似度矩陣實現所述腹部超聲文本數據的文本聚類,對文本聚類后的腹部超聲文本數據中的短句進行定位與映射;
根據所述短句的定位與映射結果通過算法對所述腹部超聲文本數據進行實體、屬性和值的標記,基于實體、屬性和值構建所述腹部超聲文本數據的結構化知識網絡。
進一步地,所述的利用分詞工具對中文的腹部超聲文本數據進行文本分詞處理,得到所述腹部超聲文本數據的文本集合,包括:
利用分詞工具對中文的腹部超聲文本數據進行文本分詞,采用基于詞共現分析的分詞校正方法識別出文本分詞結果中的過切分,并對過切分進行校正處理,所述過切分為將本應該合并在一起的字、詞和詞組切分開,根據校正處理后的分詞結果得到所述腹部超聲文本數據的文本集合。
進一步地,所述的采用基于詞共現分析的分詞校正方法識別出文本分詞結果中的過切分,并對過切分進行校正處理,包括:
設所述腹部超聲文本數據為S,S={W1,W2,...,Wn},Wi表示S中的第i個詞,Wi+1表示S中的第i+1個詞,Cnt(wi,wi+1)表示詞對wiwi+1在S中出現的次數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學,未經北京交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811376501.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





