[發明專利]一種領域本體構建方法及系統有效
| 申請號: | 201210017772.7 | 申請日: | 2012-01-19 |
| 公開(公告)號: | CN103218362A | 公開(公告)日: | 2013-07-24 |
| 發明(設計)人: | 董振江;吉鋒;羅圣美;程龔;瞿裕忠 | 申請(專利權)人: | 中興通訊股份有限公司;南京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京派特恩知識產權代理事務所(普通合伙) 11270 | 代理人: | 張穎玲;程立民 |
| 地址: | 518057 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 領域 本體 構建 方法 系統 | ||
1.一種領域本體構建方法,其特征在于,該方法包括:
羅列需要被目標本體描述的所有術語的名稱,形成關鍵詞集合W0;
對關鍵詞集合W0中的所有關鍵詞進行排序,形成關鍵詞序列S0;
創建待復用的本體集合O,將從關鍵詞序列S0中抽取的連續子序列中的所有關鍵詞提交到本體檢索系統,將檢索結果中排名最高的本體添加到本體集合O;
對本體集合O中的所有本體進行集合的并操作處理,形成新的本體o。
2.根據權利要求1所述的方法,其特征在于,該方法還包括:為新的本體o中描述的術語命名,并根據新的本體o中描述的術語的名稱進行同義詞獲取。
3.根據權利要求1所述的方法,其特征在于,所述羅列需要被目標本體描述的所有術語的名稱,形成關鍵詞集合W0為:
對于目標本體所描述的目標領域,使用自然語言LS中的關鍵詞羅列需要被目標本體所描述的所有術語的名稱,形成一個關鍵詞集合W0。
4.根據權利要求1所述的方法,其特征在于,所述對關鍵詞集合W0中的所有關鍵詞進行排序,形成關鍵詞序列S0為:
建立樹,樹中每個節點具有標簽和處理標記;
判斷樹中是否所有節點的處理標記都是“已處理”,如果否,從樹中所有處理標記是“未處理”的節點中選取當前節點,所述當前節點的標簽的關鍵詞集合W0為當前集合;
判斷當前集合中是否只包含一個關鍵詞,當前集合包含超過一個關鍵詞時,將當前集合劃分為兩個子集,將兩個子集中的最重要子集WL作為當前節點的左子節點添加到樹中,將兩個子集中的另一個子集WR作為當前節點的右子節點添加到樹中,將當前節點的處理標記改為“已處理”;否則,將當前節點的處理標記改為“已處理”,然后繼續判斷樹中是否所有節點的處理標記都是“已處理”,直到樹中所有節點的處理標記都是“已處理”時,根據關鍵詞集合W0中的所有關鍵詞所對應的節點的深度優先遍歷順序,形成關鍵詞序列S0。
5.根據權利要求4所述的方法,其特征在于,所述將當前集合劃分為兩個子集為:
將當前集合中的關鍵詞作為對一個領域或范圍的描述,將兩個子集中的關鍵詞分別作為對該領域或范圍的兩個不同子領域或子范圍的描述。
6.根據權利要求1所述的方法,其特征在于,所述將從關鍵詞序列S0中抽取的連續子序列中的所有關鍵詞提交到本體檢索系統,將檢索結果中排名最高的本體添加到本體集合O為:
創建待復用的本體集合O,將關鍵詞序列S0記作S,獲取S中的滿足條件的前綴連續子序列中最長的一個子序列SH,將SH從S的前端截去,得到剩余的后綴連續子序列ST;
判斷SH是否為空序列,如果SH為空序列,從ST中刪除最前面的一個關鍵詞;如果SH不為空序列,將檢索結果HITS(SH)中排名最高的本體添加到O;
判斷ST是否為空序列,如果ST不為空序列,將ST記作S,再獲取S的滿足條件的前綴連續子序列中最長的一個子序列SH,將SH從S的前端截去,得到剩余的后綴連續子序列ST;否則,如果ST為空序列,流程結束。
7.根據權利要求6所述的方法,其特征在于,所述條件為子序列中的所有關鍵詞組合成一個查詢關鍵詞組,將所述查詢關鍵詞組提交到本體檢索系統后,檢索結果HITS(SH)不為空。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中興通訊股份有限公司;南京大學,未經中興通訊股份有限公司;南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210017772.7/1.html,轉載請聲明來源鉆瓜專利網。





