[發明專利]一種新型語義關聯挖掘方法有效
| 申請號: | 201210399288.5 | 申請日: | 2012-10-19 |
| 公開(公告)號: | CN102902809A | 公開(公告)日: | 2013-01-30 |
| 發明(設計)人: | 張祥 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 蘇州廣正知識產權代理有限公司 32234 | 代理人: | 劉述生 |
| 地址: | 215123 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 新型 語義 關聯 挖掘 方法 | ||
技術領域
本發明涉及信息檢索領域,特別是涉及一種新型語義關聯挖掘方法。
背景技術
隨著語義網近十年來的蓬勃發展,在線語義數據越來越豐富,龐大的語義數據集構成了一個紛繁復雜的數據之網。語義網中的語義搜索主要關注語義對象和對象之間的語義關聯,語義關聯檢索的目標是幫助用戶找到并理解隱含在海量語義數據之中的對象之間直接或間接的聯系。
在語義網研究領域,語義關聯通常被定義為對象在資源描述框架圖中直接或間接的關系。對語義關聯的建模通常沿用圖論中有向路徑的方式,對于給定的兩個對象,語義關聯發現的過程是快速找到對象在資源描述框架圖中的一條或多條最短或較短路徑。
語義關聯的挖掘技術經歷十年的發展已經取得了一定的成果,但相關技術仍然存在著不足。傳統基于語義路徑的語義關聯模型仍存在局限性:(1)傳統語義路徑只能刻畫對象兩兩之間的語義關聯,且每個語義關聯互相獨立,無法統一,無法刻畫多個對象之間的復雜關聯,但實際上多個對象大量的存在于真實語義數據中,應當統一為一個整體的語義關聯;(2)語義路徑模型并沒有考慮語義關聯的典型性,即具有語義關聯的兩個對象之間的語義路徑是否也出現在其它語義關聯中,在很多情況下,平凡的、不重要的語義路徑僅僅表示了兩個對象在資源描述框架圖中的連通性,并不表示兩個對象之間存在具有意義的語義關聯。
現有的語義關聯挖掘方法較難處理大規模語義數據。隨著語義網的發展,出現了大量的大規模語義數據集,其規模超過了百萬三元組,在這樣的數據規模下,無論是路徑發現技術還是傳統的圖挖掘技術均難以在有限的時間內挖掘出有意義的結果。尤其是傳統圖挖掘算法,由于其復雜度大多為指數級,且大多假定圖的規模可以存放在內存中,因此至今為止未能直接應用于大規模圖的挖掘中。在數據挖掘研究領域,解決問題的主要方法為對大規模圖的分塊。PartMiner算法是最為流行的用于圖挖掘的圖分塊算法,但該算法理論上存在挖掘到錯誤結果的可能性,需要在全局挖掘后進一步檢測挖掘結果的正確性,因此至今還沒有完善的分塊方法能夠快速且準確的對大規模語義數據進行劃分與合并。
發明內容
本發明主要解決的技術問題是提供一種新型語義關聯挖掘方法,該方法有高效、挖掘結果準確等優點。
為解決上述技術問題,本發明采用的一個技術方案是:提供一種新型語義關聯挖掘方法,包括步驟為:
(1)將輸入的語義數據進行解析并聚類,形成語義數據簇,對所述語義數據簇進行數據清洗,并將所述語義數據簇的資源描述框架圖轉化為類型對象圖;
(2)通過基本標記規則或優化標記規則對所述類型對象圖進行分塊或合并,得到多個分塊,所述基本標記規則采用接近隨機的標記方法,所述優化標記規則采用啟發式規則;
(3)預測所述每個分塊中潛在的鏈接模式和語義關聯的數量級,預測結果反饋給二劃分單元,對較大或結構復雜的分塊進一步劃分;
(4)挖掘出所述分塊的局部鏈接模式和語義關聯,再將所述局部鏈接模式和所述語義關聯進行合并,將所述語義關聯匯總和統計,輸出給用戶。
在本發明一個較佳實施例中,步驟(1)中所述資源描述框架圖轉化為類型對象圖的過程為對資源描述框架圖中的資源描述框架三元組進行過濾,再將所述資源描述框架三元組擴展為鏈接五元組,利用所述鏈接五元組將所述資源描述框架圖轉化為所述類型對象圖。
在本發明一個較佳實施例中,步驟(2)中對所述類型對象圖分塊采用邊標記方法,所述標記方法為所述類型對象圖中每條邊分配一個標簽,所述標簽包括主語對象和賓語對象的類型。
在本發明一個較佳實施例中,步驟(4)中所述挖掘方法為分階段挖掘方法,通過頻繁模式挖掘算法從所述類型對象圖中挖掘出部分或所有所述鏈接模式,選取所述鏈接模式中的部分模式,根據所述部分模式在所述資源描述框架圖中選擇實例化子圖作為所述語義關聯。
在本發明一個較佳實施例中,步驟(4)中所述挖掘方法為合并式挖掘方法,通過頻繁模式挖掘算法挖掘所述鏈接模式時,所述語義關聯在計算所述鏈接模式支持度時被挖掘出來。
本發明的有益效果是:本發明的新型語義關聯挖掘方法,該方法相對于現有方法擁有高效、挖掘結果準確等特點,提出了類型對象圖模型用于刻畫多個對象之間的復雜關聯,并將鏈接模式用于衡量語義關聯的典型性,進而使用圖挖掘技術開展語義關聯的挖掘,提高了語義關聯挖掘在大規模語義數據上的可行性和效率。
附圖說明
圖1是本發明新型語義關聯挖掘方法一較佳實施例的流程圖;
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210399288.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種具有雙向油槽的滑動軸承
- 下一篇:法蘭軸承快裝結構





