[發明專利]信息對象搜索的方法和裝置無效
| 申請號: | 200910109540.2 | 申請日: | 2009-08-11 |
| 公開(公告)號: | CN101655862A | 公開(公告)日: | 2010-02-24 |
| 發明(設計)人: | 華天清;曹鴻鈞;齊勇挺;宋棟 | 申請(專利權)人: | 華天清;齊勇挺 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518054廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 對象 搜索 方法 裝置 | ||
技術領域
本發明屬于計算機科學技術領域語義搜索分支,具體涉及一種信息對象搜索的方法和裝置,適用于網絡信息提取、全文搜索和語義搜索、商業情報挖掘、信息聚合、網絡知識庫建立、手機搜索等應用領域。
背景技術
查準率和查全率是衡量搜索引擎的兩個重要指標,但是對于海量的綜合的搜索引擎來說,由于互聯網信息過剩,重復率很高,對于一般的檢索請求,在上述兩個指標并不是很優秀的情況下,仍然能夠給客戶提供較滿意的搜索結果。但是,如果用戶要檢索一些強結構化的信息(下文將其稱為信息對象,或簡稱對象,就像面向對象編程里面的對象一樣,是強結構化的,其結構由可嵌套的對象屬性(property)構造),普通的綜合搜索引擎很難給出滿意的結果,例如,用戶搜索最近發布的跟PHP編程有關的威客項目,或者近期將在深圳舉辦的個人鋼琴表演活動,幾乎當前所有的主流搜索引擎不能給出滿意的結果。這類信息一方面是強結構化的,其信息結構表達豐富的語義信息但是信息內容文字數量很小,而普通的綜合搜索引擎難于有效利用這些語義信息;另一方面,這類信息對象往往是有生命周期的,普通的搜索引擎的索引策略,例如,經典的PageRank,沒有很好的利用和管理代表其生命周期的信息。
垂直搜索是一個比較有效的解決方案,垂直搜索將索引的內容專注于某個特定領域或者行業,采用定制的網絡爬蟲、內容存儲和索引算法和搜索結果呈現方法,提高查準率。例如,使用定題爬蟲和定題搜索方法,為特定幾個網站的內容進行索引和搜索。在用戶操作界面上,一般提供類似于數據庫查詢的操作接口,例如,查詢深圳到北京的航班信息或者查詢某個商品的價格等等,像關系數據庫查詢一樣能夠獲得幾乎是完美的查準率。雖然,定制開發的垂直搜索比較好地解決了領域內的信息搜索問題,但是形成了一個信息孤島,難于實現異構信息的共享、交換和檢索。綜合搜索引擎也提供垂直化的搜索手段,例如,新聞搜索、博客搜索、論壇搜索等等,然而這種語義的劃分是一種粗粒度的分類,不能貼切地反映被搜索內容的語義。
語義網絡的一個重要目標將所有信息孤島連接起來,促進信息的共享和交換,首先,被交換和共享的信息必須含有語義結構元數據,才能夠被智能代理或者其它各種計算機程序自動識別和處理,采用的技術手段可以是XML和RDF技術等等,例如,如果搜索引擎能夠識別代表信息對象生命周期的信息的語義,那么就可以解決前面述及的搜索引擎的缺陷;其次,在具有語義結構的互聯網內容之上通過建立知識模型,例如采用OWL技術,由計算機程序實現基于知識的推理等智能運算。
然而要全面實現語義網絡,必須有效地跨出基礎性的一步——互聯網信息的結構化(在英文文獻中,結構化的內容稱為data?sets,也就是本文所說的信息對象),即使這一步也沒有行之有效的可商用的解決方案。人們試圖解決這個問題,涌現出各種方法,大致可以分成兩類,第一類是在網頁中直接嵌入元數據,指導計算機程序識別被標記的內容的語義,例如,Microformat可以作為這一類的代表,然而按照統一的標準的語義標記重新書寫現有的互聯網頁面是不可行的,改寫成本難于承擔,而且標準討論和達成一致的過程很漫長;另外一類采用一些自適應的方法,企圖從互聯網頁面內容中識別出語義信息,然而這類方法基本上還處于研究或者實驗階段,識別的準確度有待提高,而且實現難度過高,短時間內難于普及應用。
從另一個角度分析,垂直搜索甚至關系數據庫查詢系統具有很高的查準率,得益于用戶知曉被查詢信息的元數據或者系統將元數據提示給用戶,例如,用戶查詢威客項目時,系統提供查詢界面上給出了多個字段,“類別”、“時間段”、“關鍵字”等等,用戶可以按字段提供查詢條件,經過多個條件的綜合約束,將查詢范圍變得很狹窄。但是,綜合搜索系統中,與某個關鍵詞關聯的語義很廣泛,也就是說一個關鍵詞可能會落入多個不同的語義范疇,如果這些語義范疇都用不同的語義結構建模,那么與該關鍵詞關聯的語義結構千差萬別,用戶猜不出目標語義結構而系統也給不出一個按字段查詢的界面。例如,在綜合搜索引擎中,用戶輸入“最新PHP編程威客項目”,想找到與PHP編程有關的威客項目而且還是沒有結標的項目(最新)幾乎是不可能的。
隨著移動數據業務的普及,用戶越來越多的使用手機搜索,用戶使用桌面計算機搜索信息往往是一種探索性的行為,經常樂于翻看搜索引擎提供的多頁搜索結果。而手機搜索往往是一種即興的、短暫的行為,而且用戶還希望一搜即得,獲得某個特定信息對象或者怎樣獲得該對象的準確的建議。這進一步提高了對信息對象查準率的要求。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華天清;齊勇挺,未經華天清;齊勇挺許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910109540.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種太陽能熱水器
- 下一篇:置換用于將呼叫引導到服務中心的短碼的設備及方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





