[發明專利]一種茶學領域虛擬本體建模方法有效
| 申請號: | 201611087353.5 | 申請日: | 2016-12-01 |
| 公開(公告)號: | CN106599117B | 公開(公告)日: | 2019-12-03 |
| 發明(設計)人: | 李紹穩;劉超;耿凡凡;張筱丹;徐濟成;許高建;李景霞;楊陽;沈杰 | 申請(專利權)人: | 安徽農業大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 11350 北京科億知識產權代理事務所(普通合伙) | 代理人: | 湯東鳳<國際申請>=<國際公布>=<進入 |
| 地址: | 230036 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 領域 虛擬 本體 建模 方法 | ||
1.一種茶學領域虛擬本體建模方法,其特征是本建模方法基于云計算的MapReduce框架,本方法包括1個或多個Map任務、以及一個Reduce任務;
本茶學領域虛擬本體建模方法的步驟包括:
1)先由Map任務對茶學領域本體模塊進行虛擬抽取,Map任務的個數由所涉及到茶學領域本體的個數確定;Map任務開展茶學領域本體模塊虛擬抽取是基于社團劃分:首先根據需求對茶學領域本體進行社團抽取,將與需求聯系更緊密的茶學領域本體知識劃分到一個本體社團中;然后對本體社團內的知識與需求進行相關的局部性判斷,獲得具有非局部性的本體知識;
局部性判斷的方法為:若本體中的某一概念或概念間關系的刪除,不能改變用戶需求的意義,則該概念或關系具有關于用戶需求局部性,否則,該概念或關系具有關于用戶需求的非局部性;
2)由Reduce任務對虛擬抽取出的茶學領域本體模塊進行映射,最終生成茶學領域虛擬本體;
Reduce任務對茶學領域本體模塊進行映射是基于茶學同義詞詞林的;先構建茶學同義詞詞林;然后以同義詞詞林為基礎,計算虛擬抽取出的茶學領域本體模塊概念間的相似度,實現茶學本體模塊的映射,生成茶學虛擬本體模塊;
2.1)構建茶學同義詞詞林的步驟包括:
步驟一:確定茶學同義詞詞林的收錄范圍;
步驟二:通過文獻、書籍、網絡收集茶學領域詞匯;
步驟三:對收集的茶學領域詞匯按詞義進行分類;
步驟四:根據同義詞詞林編碼規則,對茶學領域詞匯進行編碼,形成茶學同義詞詞林;
步驟五:邀請茶學領域專家對茶學同義詞詞林進行評估校正;
2.2)計算茶學領域本體模塊的概念間的相似度,并設定閾值,
獲得相似度大于閾值的概念對;然后對該概念對對應的茶學領域本體模塊增加等價屬性,即得到茶學領域本體模塊的映射;
計算茶學領域本體模塊概念間的相似度的方法為:
c1和c2是分屬兩個茶學領域本體模塊的概念,i表示c1和c2編碼開始出現不同的層數,N是第i層分支上結點的總數,D是c1和c2的在同義詞詞林中的距離。
2.根據權利要求1所述的建模方法,其特征是本建模方法中所涉及的茶學領域虛擬本體知識均儲存在HBase數據庫中,由基于HBase的茶學領域虛擬本體存儲模型實現;
建立基于HBase的茶學領域虛擬本體存儲模型的方法為:
RDF三元組是本體的基礎結構;被表示成OWL的本體轉換成RDF三元組來表示;一個RDF三元組被定義為<s,p,o>,其中:s表示主語,p表示謂語,o表示屬性;s和o是本體中的概念,看做是結點;p是本體中概念間的屬性,看做是結點間的連線;
建立基于HBase的茶學領域虛擬本體存儲模型,是通過兩個HBase表格來存儲按需虛擬融合的茶學領域本體RDF三元組;兩個HBase表格分別為SR_P_O表和OR_P_S表,如表1、表2所示:
表1 SR_P_O表存儲結構
表2 OR_P_R表存儲結構
SR_P_O表中:行鍵是由s和r組成的,其中:
r表示抽取茶學領域本體模塊的所依據的需求;虛擬抽取出的茶學領域本體模塊是一個按需所取的知識集合;在訪問表格中的知識時,需要首先判斷知識是否與需求相關;如果將需求作為屬性放入列族,則需要進行全表掃描才能判斷知識是否與需求相關;
SR_P_O表中的列族內部分成了兩列,其中:
一列是Name,用于存放RDF三元組的謂語,即本體屬性的名字,
另外一列是Value,用于存放RDF三元組的賓語,即本體屬性的值;
sn是本體中RDF三元組的主語,pn是本體中RDF三元組的謂語,on是本體中RDF三元組的屬性,rn表示抽取茶學領域本體模塊的所依據的需求。
3.根據權利要求1所述的建模方法,其特征是所述步驟2.1)中的步驟四中,同義詞詞林編碼規則是以哈工大版的同義詞詞林編碼規則為基礎;
哈工大版本的同義詞詞林收錄了大約七萬個常用詞匯,這些詞匯在人民日報語料庫中出現頻率都不低于3;該版本共分成12個大類,94個中類,1428個小類,每個小類中又被分為若干個詞群;
根據分類,同義詞詞林為每個詞匯設置了一個8位的編碼,其中第一位代表詞匯所屬大類,用一位大寫英文字母表示;第二位表示詞匯所屬中類,用一位小寫英文字母表示;第三位、第四位代表詞匯所屬小類,用兩位阿拉伯數字表示;第五位代表詞群,用一位小寫英文字母表示;第六位、第七位代表詞群中的詞匯,用兩位阿拉伯字母表示;第八位是標記為,用符號=、#、@表示,符號=表示編碼表示的是一組同義詞,符號#表示編碼表示的是一組相關詞匯,但不是同義詞,符號@表示編碼表示的是既不同義,又不相關的詞匯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽農業大學,未經安徽農業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611087353.5/1.html,轉載請聲明來源鉆瓜專利網。





