[發明專利]腹部超聲文本數據的結構化知識網絡的構建方法有效
| 申請號: | 201811376501.4 | 申請日: | 2018-11-19 |
| 公開(公告)號: | CN109471950B | 公開(公告)日: | 2022-04-01 |
| 發明(設計)人: | 尚小溥;許吳環;張潤彤;朱曉敏;朱燊;苑舒婷;姜德友 | 申請(專利權)人: | 北京交通大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/289 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 黃曉軍 |
| 地址: | 100044 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 腹部 超聲 文本 數據 結構 知識 網絡 構建 方法 | ||
1.一種腹部超聲文本數據的結構化知識網絡的構建方法,其特征在于,包括:
利用分詞工具對中文的腹部超聲文本數據進行文本分詞處理,得到所述腹部超聲文本數據的文本集合;
計算所述文本集合中不同文本之間的相似度,根據文本之間的相似度構建文本相似度矩陣,利用文本相似度矩陣實現所述腹部超聲文本數據的文本聚類,對文本聚類后的腹部超聲文本數據中的短句進行定位與映射;
根據所述短句的定位與映射結果通過算法對所述腹部超聲文本數據進行實體、屬性和值的標記,基于實體、屬性和值構建所述腹部超聲文本數據的結構化知識網絡;
所述的對文本聚類后的腹部超聲文本數據中的短句進行定位與映射,包括:
選取n條文本聚類后的腹部超聲文本數據,對每條腹部超聲文本數據以標點符號為界進行短句切分;
選取第一條腹部超聲文本數據中第m個短句采用海明距離計算出與第i條腹部超聲文本數據中的第j個短句之間的相似度其中i=2,3,...,n;
提取第i條腹部超聲文本數據中的與第一條腹部超聲文本數據中第m個短句相似度最高的短句,兩個相似度最高的短句之間構成映射;
對第一條腹部超聲文本數據中的所有短句進行上述處理,得到第一條腹部超聲文本數據與第i條腹部超聲文本數據之間的相似短句映射表,該相似短句映射表中包括多個短句組,每個短句組中包括兩個構成映射的分別來自第一條腹部超聲文本數據與第i條腹部超聲文本數據的短句;
所述的根據所述短句的定位與映射結果通過算法對所述腹部超聲文本數據進行實體、屬性和值的標記,包括:
(1)統計出所述相似短句映射表中的短句組中所有短句的出現頻數,選取出現頻數最多的短句作為標準句;
(2)選取與所述標準句之間相似度高于0.5的短句構成短句集合,該短句集合中短句按照相似度的值的大小進行降序或者升序排序;
(3)基于所述腹部超聲文本數據的文本集合對所述短句集合中的短句進行分詞;
(4)分別以每一個短句的分詞結果為基礎與其后面的短句的分詞結果作比較,當后面的短句的分詞結果為前面的短句的分詞結果的子集,則將后面的短句從所述短句集合中刪除,得到精簡后的短句集合;
(5)對所述精簡后的短句集合中的短句,統計短句中每個詞出現的次數,以及每個詞出現的次數與精簡后的短句集合中短句總數之比值,將出現次數最多且所述比值高于0.8的詞作為實體;
(6)在每個短句中找到實體出現的位置后,選取實體后面的詞,判斷該詞是不是最末尾的詞,如果是,則執行(7);否則,執行(8);
(7)判斷該詞的頻數是否小于等于P,若是,則判斷該詞為值;否則,判斷該詞是屬性;
(8)判斷該詞的頻數或該詞的下一詞的頻數是否大于Q,若是,則判斷該詞為屬性;否則,判斷該詞為值;參數P和Q設置為:P=Q=腹部超聲文本數據中包含實體的短句數目/2。
2.根據權利要求1所述的方法,其特征在于,所述的利用分詞工具對中文的腹部超聲文本數據進行文本分詞處理,得到所述腹部超聲文本數據的文本集合,包括:
利用分詞工具對中文的腹部超聲文本數據進行文本分詞,采用基于詞共現分析的分詞校正方法識別出文本分詞結果中的過切分,并對過切分進行校正處理,所述過切分為將本應該合并在一起的字、詞和詞組切分開,根據校正處理后的分詞結果得到所述腹部超聲文本數據的文本集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學,未經北京交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811376501.4/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





