[發明專利]基于語義關聯網絡的跨模信息檢索方法無效
| 申請號: | 201010252935.0 | 申請日: | 2010-08-13 |
| 公開(公告)號: | CN101894170A | 公開(公告)日: | 2010-11-24 |
| 發明(設計)人: | 曾承 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 張火春 |
| 地址: | 430072*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 關聯 網絡 信息 檢索 方法 | ||
技術領域
本發明涉及信息檢索技術領域,尤其涉及一種基于語義關聯網絡的跨模信息檢索方法。
背景技術
據廣電網09年統計,全國主流網站每日更新的文字、圖片及視頻量大概是310GB/天。《福布斯》報道,人類5000年的文字記載總量是5?EB,而僅09年,全球產生的數字內容就超過了450?EB,其中多媒體數據占據了相當大的比例。“信息爆炸”愈演愈烈,Facebook、Twitter、微博客等應用促使新生信息指數擴張,而當前的互聯網仍然無法應對信息過度膨脹與信息精確定位之間的矛盾,尤其是對于多媒體信息,即使是谷歌、百度,以及微軟必應等搜索引擎也難以獲得滿意的檢索效果。Outsell公司最新調查顯示,全世界平均每人每周要花費9.5小時用于信息檢索,其原因是基于關鍵字的主流檢索方式難以有效表達用戶檢索需求,而返回結果的挑選也相當耗時。
近幾年,基于多媒體樣例相似性的搜素技術得到了長足發展,甚至出現了商業化產品,如提供商品圖片相似搜索的Like,支持提交圖片、視頻幀,甚至手畫圖進行檢索的GazoPa,以及微軟即將發布的基于圖片的地理位置搜索Photo2Search等。這些搜索引擎主要是利用顏色、紋理、形狀等底層物理特征進行匹配,其視覺感受將遠高于傳統關鍵字搜索引擎,但在語義匹配度方面并未改善。因此,語義搜索技術也同時受到廣泛關注,如微軟的IGroup提供結果語義分類,Hakia能同時顯示某一主題的圖片、視頻、文本介紹、文本新聞等,以及支持自然語言檢索,并整合了語義網、語義分類等技術的?Zoom。然而,目前的語義搜索引擎仍然基于關鍵字,其語義處理過程大多是利用WordNet或本體等,進行概念推理或比較。
人們在日常交往過程中,往往是以多模形式進行信息互遞。同時采用視覺、聽覺,以及文本等形式表達自己的語義,必然能使對方更快、更準確的理解自己。在人機交互過程中,這種規律也同樣存在。跨模檢索技術就是力求最大限度地獲取不同模態媒體之間的關聯性、協同性和互補性,使得多種媒體信息的識別、檢索和利用更加充分且有效,并使媒體信息的發現重構、共生新用成為可能,從而達到各種模態媒體信息的融合,共存于一體,使得用戶能夠更為及時、準確、低成本、多感官的獲取所需信息。
發明內容
針對上述存在的技術問題,本發明的目的是提供一種基于語義關聯網絡的跨模信息檢索方法,實現高效跨模檢索。
為達到上述目的,本發明采用如下的技術方案:
通過網頁視覺空間分析、多媒體搜索引擎標注關系分析、DeepWeb接口模式分析、復合媒體中不同模態數據的關聯分析、用戶直接或潛在反饋信息的利用,以及關聯推理等六個渠道獲取跨模信息單元的語義關聯知識;
基于以上不同渠道獲取的關聯知識,進行加權整合,構建統一的跨模語義關聯網絡;
針對跨模語義關聯網絡,實施分層模糊聚類;
對每個聚類,尋找其中所有信息單元的典型特征向量,作為該聚類的代表;
對系統中所有信息單元對應的特征向量,建立散列索引;
在每個信息單元,對應特征向量、聚類的典型特征向量、聚類序號之間建立映射關系。
所述網頁視覺空間分析包括以下步驟:
將頁面劃分成不同粒度、具有視覺層次包含關系的若干塊;
將以上分析出的塊轉換成視覺關系樹;
利用視覺關系樹計算各種模態信息單元之間的語義關聯。
所述多媒體搜索引擎標注關系分析包括以下步驟:
針對某個多媒體搜索引擎,采用以下公式計算搜索關鍵字(或關鍵字集合)和第v條結果的標注概念集合的語義相似性:?????????
其中,?????
上式中Ku、Tv分別表示搜索概念集合和第v條結果的標注概念集合;?是一個修正常量,用于防止兩個集合的交集?為空;KM為Kuhn-Munkres算法,?表示從搜索關鍵字和結果標簽中分別選擇一個概念,并通過WordNet或者其他本體計算它們的語義相似性;
構建多媒體元搜索引擎,定義一個語義空間來衡量所有結果之間的關聯大小,其中橫坐標為每條結果標注與檢索條件的關聯度大小,即?,縱坐標為搜索引擎排序值。
所述DeepWeb接口模式分析包括以下步驟:
基于同類網頁疊加,定位網頁中DeepWeb數據區域;
識別后臺數據庫的數據模式;
利用該表的橫軸模式信息,實現不同屬性、不同模態數據之間的相互解釋;
利用該表的縱軸模式信息,計算不同元組之間的語義關聯大小。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010252935.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:利用數據通信的裝置控制
- 下一篇:電子書下載方法及購買系統





