[發明專利]一種基于語義的網絡文檔智能檢索架構在審
| 申請號: | 201710504510.6 | 申請日: | 2017-06-29 |
| 公開(公告)號: | CN107330044A | 公開(公告)日: | 2017-11-07 |
| 發明(設計)人: | 張軍;陳曉峰;戴建榮 | 申請(專利權)人: | 上海德衡數據科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 201201 上海市浦東*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 網絡 文檔 智能 檢索 架構 | ||
技術領域
本發明涉及一種基于語義的網絡文檔智能檢索架構
背景技術
目前搜索引擎只針對文本進行搜索,還不能有效對音樂、圖片和視頻等多媒體文件進行搜索,原因主要是多媒體數據量太大;如何索引多媒體文件;進而對處理過的多媒體文件檢索。現在因特網上有大量的多媒體文件,特別是社交網站和多媒體分享的興起,需要對多媒體文件進行精準檢索。
網絡爬蟲,也稱網絡蜘蛛、網絡機器人,是一個自動提取網頁的程序,它從因特網上下載網頁,是搜索引擎的重要組成部分。網絡爬蟲利用標準的HTTP協議,根據超級鏈接和網絡文檔檢索的方法遍歷因特網信息空間。因特網上有數千種不同的數據類型,HTTP給每種要通過網絡傳輸的對象都打上了名為MIME類型的數據格式標簽。統一資源定位符(URL)是資源標識符最常見的形式。URL描述了一臺特定服務器上某資源的特定位置。元素文件(METAFILE)可提供有關頁面的元信息,如針對搜索引擎和更新頻度的描述和關鍵詞,可針對元素的關鍵詞進行索引。
URL是必要的,因為它是初始數據集的來源,這個過程中仍然會涉及到網絡爬蟲。然而,僅有這個初始數據集是不夠的。可以將它們視作海量的原始數據,需要進一步地分類和提煉。這種提煉在資源描述框架(RDF)的幫助下完成。同一個詞可以有不同的含義甚至不同的用法。這種歧義問題可以用本體(ONTOLOGY)-即含義的匯集來解決。
但基于URL、RDF、ONTOLOGY的語義搜索與主流網絡兼容性不夠。目前,最簡單的方式是在網頁中直接嵌入描述。要想讓網頁的結構更清晰,可使用HTML5中新的語義元素。這些元素可以為它們標注的內容賦予額外的含義。網絡爬蟲已經在檢查一些HTML5的語義元素了,這樣可以收集到它們索引的頁面的更多信息。
網絡搜索的數據往往是高維的,其維數甚至達到百萬數量級。發現和利用高維數據中的低維結構,在網絡搜索中顯得尤為重要。另外,在網絡搜索中,人們只能觀察到少量元素,希望根據這些有限的信息,能夠猜測出未看到的大量元素,從而恢復一個未知的低秩矩陣或近似低秩矩陣。
假定已知數據已排列成一高維數據或樣本矩陣。估計一低維子空間的問題稱為低秩矩陣逼近。當低秩矩陣或樣本矩陣的某些元素被嚴重損壞時,能夠自動識別被損壞的元素,精確地恢復原低秩矩陣。在網絡搜索中,需要將一個數據矩陣分解為一個低秩矩陣與一個稀疏矩陣之和,并且希望同時恢復低秩矩陣與稀疏矩陣,以便于進行語義搜索。
本發明提供了一種基于語義的網絡文檔智能檢索架構,通過METAFILE的關鍵詞對URL進行索引,并與相關關鍵詞建立映射;將詞與網絡文檔的相關性進行編碼,作為網絡文檔-詞矩陣的元素;再將網絡文檔-詞矩陣分解為一個低秩矩陣與一個稀疏矩陣之和;低秩矩陣檢索在所有網絡文檔中共同使用的常見單詞;稀疏矩陣檢索每個網絡文檔與其他網絡文檔相區別的少數幾個關鍵詞;利用關鍵詞對網絡文檔進行語義檢索。
發明內容
本發明的目的在于提供一種基于語義的網絡文檔智能檢索架構。本發明包括以下特征:
發明技術方案
1.一種基于語義的網絡文檔智能檢索架構,其具體步驟如下:
1)通過METAFILE的關鍵詞對URL進行索引,并與相關關鍵詞建立映射;
2)將詞與網絡文檔的相關性進行編碼,作為網絡文檔-詞矩陣的元素;
3)再將網絡文檔-詞矩陣分解為一個低秩矩陣與一個稀疏矩陣之和;
4)低秩矩陣檢索在所有網絡文檔中共同使用的常見單詞;
5)稀疏矩陣檢索每個網絡文檔與其他網絡文檔相區別的少數幾個關鍵詞;
6)利用關鍵詞對網絡文檔進行語義檢索。
附圖說明
附圖1是基于語義的網絡文檔智能檢索架構圖。
具體實施方式
這種基于語義的網絡文檔智能檢索架構,包括如下步驟特征:
1)通過METAFILE的關鍵詞對URL進行索引,并與相關關鍵詞建立映射;
2)將詞與網絡文檔的相關性進行編碼,作為網絡文檔-詞矩陣的元素;
3)再將網絡文檔-詞矩陣分解為一個低秩矩陣與一個稀疏矩陣之和;
4)低秩矩陣檢索在所有網絡文檔中共同使用的常見單詞;
5)稀疏矩陣檢索每個網絡文檔與其他網絡文檔相區別的少數幾個關鍵詞;
6)利用關鍵詞對網絡文檔進行語義檢索。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海德衡數據科技有限公司,未經上海德衡數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710504510.6/2.html,轉載請聲明來源鉆瓜專利網。





