[發明專利]一種基于本體的醫學文檔語義關聯檢索方法有效
| 申請號: | 201510344332.6 | 申請日: | 2015-06-18 |
| 公開(公告)號: | CN105117397B | 公開(公告)日: | 2018-08-28 |
| 發明(設計)人: | 李勁松;張藝帆;田雨;茍玲;李鵬飛 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州杭誠專利事務所有限公司 33109 | 代理人: | 王江成;盧金元 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 本體 醫學 文檔 語義 關聯 檢索 方法 | ||
1.一種基于本體的醫學文檔語義關聯檢索方法,其特征在于,包括以下步驟:
A、對XML文檔進行解析,識別XML文檔標記;
B、使用基于鏈接的Rock分類算法對文檔標記進行分類,即對所有語義相近的標記和一組上下文相似的標記,計算其分類良好度,使最終分類結果中每一類文檔標記都滿足分類基準方程取到最大值;最后以本體語言OWL描述分類結果,構建XML文檔聚類本體;
C、利用D2R語義數據轉換器將解析后的XML文檔標記及文本數據轉化為XML文檔聚類本體的實例,以語義網資源描述框架三元組形式存儲;
D、使用基于簡單路徑Xpath的向量檢索算法進行檢索;
步驟D具體為:
D01、對物理文檔以及解析后的文檔標記樹的內部節點和葉子節點都分別建立索引,記載文檔結構信息和內容信息以及文檔信息;
D02、對查詢進行解析和優化處理,從而決定邏輯文檔集,并計算邏輯文檔的總數;
D03、對每一個邏輯文檔,進行路徑匹配并計算特征詞在邏輯文檔中出現的次數;
D04、對每一個邏輯文檔,計算文檔特征詞的權重以及文檔向量與查詢向量的相似性;
D05、將結果邏輯文檔集按照相關性從大到小返回給用戶。
2.根據權利要求1所述的一種基于本體的醫學文檔語義關聯檢索方法,其特征在于,所述步驟A具體為:
A01、對XML文檔進行解析,輸出文檔DOM樹;
A02、對DOM樹的文本節點和屬性節點進行數據分詞處理,并統計節點中的特征詞出現的次數;
A03、將同一元素或屬性中的所有內容特征詞都作為一個葉子節點,建立XML文檔樹;
A04、對所有物理文檔重復步驟A01至A03。
3.根據權利要求1或2所述的一種基于本體的醫學文檔語義關聯檢索方法,其特征在于,步驟D之后還包括以下步驟:
E、用戶查詢擴展器解析用戶給定的查詢,根據文檔聚類本體,將路徑中的標記用相近的本體類表示,并根據本體中定義的類層級結構及語義關聯,查找所有相關概念,從而對于特征詞路徑進行擴展,形成除了原始查詢以外的幾個子查詢,然后提交給文檔檢索器進行檢索。
4.根據權利要求1所述的一種基于本體的醫學文檔語義關聯檢索方法,其特征在于,步驟D02中,優化處理和決定邏輯文檔集具體為:
把解析的結果存在一個二維數組q[i][j]和一個變量p中,其中q[i][1]到q[i][j]存儲從第i個查詢特征詞到查詢起始節點所經過的一系列節點名,q[i][0]存儲第i個查詢特征詞的權重,p為存儲查詢的類型,即起始節點二該算法查找文檔結構索引表中的所有類型為p的邏輯文檔,對于同一邏輯文檔中出現的具有祖孫關系的元素節點,只選擇祖先節點作為邏輯文檔的根,并且返回所有邏輯文檔組成的邏輯文檔表。
5.根據權利要求1所述的一種基于本體的醫學文檔語義關聯檢索方法,其特征在于,步驟D03具體為:
設邏輯文檔的起始節點為pre(d),終止節點為bound,特征詞為pre(t),物理文檔為D,物理文檔類型定義為DTD,對于一個給定的特征詞,查找邏輯文檔表中DID和特征詞相同,且pre(d)<pre(t)<=bound的邏輯文檔,若找到的話,尋找從特征詞到D的根節點的路徑是否匹配,若匹配就算特征詞在邏輯文檔中出現,并將出現頻率值賦予邏輯文檔表中的頻率屬性。
6.根據權利要求1或4或5所述的一種基于本體的醫學文檔語義關聯檢索方法,其特征在于,步驟D04中,計算特征詞在文檔中的權重具體為:
設d是一個類型為p的邏輯文檔,則一個特征詞t在d中的權重定義為:wt=tft(d)·idftp;
式中,tft(d)為特征詞t在邏輯文檔d中的頻率;idftp為特征詞t的逆文檔頻率,定義:
|Cp|是物理文檔集C中文檔類型為p的邏輯文檔的總數,nt為出現特征詞t的邏輯文檔d的總數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510344332.6/1.html,轉載請聲明來源鉆瓜專利網。





