[發明專利]基于對同類數據對象整合的數據搜索的方法和裝置有效
| 申請號: | 201310182427.3 | 申請日: | 2013-05-16 |
| 公開(公告)號: | CN104166651B | 公開(公告)日: | 2017-10-13 |
| 發明(設計)人: | 郎皓;歐海峰;張丙奇;孫健 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司11315 | 代理人: | 許志勇 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 同類 數據 對象 整合 搜索 方法 裝置 | ||
技術領域
本申請涉及數據搜索領域,尤其涉及一種基于對同類數據對象整合的數據搜索的方法和裝置。
背景技術
隨著云時代的來臨,大數據吸引了越來越多的關注,大數據技術不在于掌握海量數據/數據對象,而更著眼于在合理的時間內達到采集、處理并整理成為用戶所需要的數據。在網絡中存在著大量的數據,充分的利用這些數據,可以為用戶的生活帶來極大的便利。用戶可以通過使用搜索引擎進行數據搜索,用以得到想到獲得的數據。以數據搜索為例,搜索引擎事先對互聯網中的網頁進行抓取,在對所抓取的網頁進行預處理之后,才能提供檢索服務。其中,最重要的就是提取網頁中的關鍵詞,其他還包括去除重復網頁、分詞、判斷網頁類型、分析超鏈接、計算網頁的重要度/豐富度等。
在進行數據搜索時,搜索引擎只是根據用戶輸入的關鍵字,檢索出與該關鍵字相關性高的匹配項,但在此過程中,與所述關鍵字相匹配的搜索結果數量巨大,并且囊括社會生活的各個領域,從而造成搜索結果質量低,如:不利于用戶使用,準確性差。
若采用信息整合的手段,搜索引擎可以將其抓取的海量數據對象進行內容挑選、分析、歸類等處理,可以縮小數據搜索的范圍,增加搜索結果的針對性。但是由于數據之間存在的歧義(如:同一關鍵字對應不同領域),造成搜索結果的準確性低;或是關鍵字存在其他表述方法(以太網、乙太網),造成搜索結果返回不全面。
例如,對關鍵字“以太網”進行數據搜索,在搜索結果頁中會出現與“以太網”相關的搜索結果,然而“以太網”和“乙太網”是同一意義不同表述的關鍵字,由于兩個關鍵字之間不存在任何關聯關系,則與“乙太網”相關的搜索結果不會不出現在搜索結果頁中,造成一部分搜索結果未能檢索出來,降低了搜索結果質量,如:搜索結果的返回率。
并且,因為搜索引擎對海量的數據/數據對象進行了內容挑選、分析、歸類等處理,在返回搜索結果時,在搜索結果頁中,會展示多個相同或相似的數據對象,這樣就造成了搜索結果的浪費。例如,在每一頁搜索結果頁中只能展示20個搜索結果,但是在這20個搜索結果中有10個為相同或相似的數據對象,那么用戶不得不多次點擊下一頁,以查看不同的數據對象。
發明內容
本申請的主要目的在于提供一種基于對同類數據對象整合的數據搜索的方法和裝置,以解決使用現有技術的搜索引擎進行數據搜索時,由于數據量過大,并且數據對象與數據對象之間不存在關聯性,而出現的搜索結果質量低的問題。
為了解決上述技術問題,本申請的目的是通過以下技術方案實現的:
本申請提供了一種基于對同類數據對象整合的數據搜索的方法,包括以下步驟:接收來自用戶的搜索請求,在所有待搜索的數據對象中搜索與所述搜索請求相匹配的一個或多個數據對象;分析搜索到的所述一個或多個數據對象中的每一個,以獲取每一個所述數據對象的數據標簽;對獲取的所述數據標簽進行匹配;將所述數據標簽相匹配的一個或多個數據對象整合為同類數據對象組合,并作為搜索結果返回至用戶。
優選地,在根據本申請所述的方法中,所述數據標簽包括第一數據標簽和第二數據標簽,第一數據標簽和第二數據標簽分別標識數據對象不同的屬性特征。
優選地,在根據本申請所述的方法中,還可以包括:對所有待搜索的數據對象,預先整合處理,以確定每一個所述待搜索的數據對象相對應的一個或多個同類數據對象,以得到數據對象映射關系表。
優選地,在根據本申請所述的方法中,對所有待搜索的數據對象,預先整合處理,包括:對各數據對象中的第二數據標簽以及第二數據標簽類目分布表進行挖掘處理;對各數據對象中的第二數據標簽進行第二數據標簽挖掘,生成所有數據對象的第二數據標簽同義詞的集合;對各數據對象中的第一數據標簽進行第一數據標簽挖掘,生成所有數據對象的第一數據標簽同義詞集合;對各數據對象中的第一數據標簽和第二數據標簽進行挖掘,生成第一數據標簽至第二數據標簽的映射關系。
優選地,在根據本申請所述的方法中,所述第二數據標簽同義詞包括:相同類目下,具有不同第二數據標簽且具有相同第一數據標簽的多個數據對象;所述第一數據標簽同義詞包括:同一數據對象中的多個相似的第一數據標簽。
優選地,在根據本申請所述的方法中,對各數據對象中的第一數據標簽和第二數據標簽進行挖掘,生成第一數據標簽至第二數據標簽的映射關系,包括:如果一數據對象僅有一個第一數據標簽且所述第一數據標簽僅與唯一的第二數據標簽存在共現,則建立所述第一數據標簽與所述第二數據標簽的映射關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310182427.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





