[發明專利]根據句子序列號進行網頁搜索的方法和裝置有效
| 申請號: | 201010110315.3 | 申請日: | 2010-02-09 |
| 公開(公告)號: | CN101923556A | 公開(公告)日: | 2010-12-22 |
| 發明(設計)人: | 杜一華 | 申請(專利權)人: | 上海萊希信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海旭誠知識產權代理有限公司 31220 | 代理人: | 王萍萍;丁憲杰 |
| 地址: | 201112 上海市閔行區聯*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 根據 句子 序列號 進行 網頁 搜索 方法 裝置 | ||
技術領域
本發明涉及信息檢索領域和自然語言處理領域,尤其涉及一種根據句子序列號進行網頁搜索的方法和裝置。
背景技術
現有的主流搜索引擎,如Google、Yahoo、Baidu等都是通過關鍵字或關鍵詞進行搜索。這些搜索引擎的索引結構中都必然包括關鍵字或關鍵詞。
在1998年的第七屆萬維網會議上,Sergey?Brin和Lawrence?Page發表的題為“The?Anatomy?of?a?Large-Scale?Hypertextual?Web?Search?Engine”的論文公開了Google搜索引擎的索引結構。Google搜索引擎的前向索引表和后向索引表都包括該搜索引擎所下載網頁的前4K個字、詞或標點符號在網頁中的位置信息。
專利號為ZL01109132.0,發明名稱為“判斷一組查詢關鍵字或詞在網頁中位置相關性的方法”的發明專利公開了另一種搜索引擎的索引結構。前向索引表和后向索引表都包括該搜索引擎所下載網頁的字、詞或標點符號在網頁中的位置,前向相鄰的字、詞或標點符號在網頁中的位置以及后向相鄰的字、詞或標點符號在網頁中的位置等信息。
現有的索引結構,也即前向索引表(Forward?Index)和倒排索引表(InvertedIndex)都沒有包括搜索引擎所下載網頁的句子信息。因此,現有的搜索引擎在很大概率上,會將搜索項所分解的關鍵字、關鍵詞或標點符號分散于若干不同句子的網頁的搜索結果返回搜索用戶。例如,郁達夫的《春風沉醉的晚上》有一個句子“經她這一問,我重新把半年來困苦的情形一層一層的想了出來。”。使用現有的主流搜索引擎,輸入搜索項“半年來一層”,結果排名靠前的幾個搜索網頁都和郁達夫的這篇文章無關。現有的搜索引擎返回的搜索結果中,有一定概率會將“半年來”和“一層”分別位于文章首、尾的網頁的排序權值設置較高,也即排名靠前。例如,有可能返回如下網頁,內容為“11月11日晚,廣州粵北地區迎來了半年來第一場救命雨,這場雨從晚上6時一直下到凌晨6時,而且還在繼續下,只不過雨量稍許小些,空氣質量也略有下降。這場雨的到來,可以說,對當地已經干旱了近半年時間,連水都快喝不上的老百姓來講,可真是一場救命雨呀!城市的街道不但被這場雨沖刷得干干凈凈,空氣清爽,老百姓的莊稼也有了大希望,甭提大家的心情是多么的愉快和高興!趕緊去雨中放松一下已揪緊的心吧!大雨將美麗的珠江支流北江的夜景蒙上了一層陰影。”。在該網頁中,關鍵詞“半年來”位于該網頁的開頭,而關鍵詞“一層”卻位于該網頁的末尾。顯然,在該網頁中,這兩個關鍵詞的關系松散,該網頁并非用戶所想搜索的對象。
現有的搜索引擎沒有對所下載網頁進行句子分割,沒有任何所下載網頁的句子信息。因此,現有的搜索引擎只能得到分解的關鍵字、關鍵詞或標點符號在某個網頁中的位置距離,例如分解的關鍵字、關鍵詞或標點符號相距多少個字節的距離。但是,并不能直接得到分解的關鍵字、關鍵詞或標點符號在某個網頁中的句子距離,也即句子序列號之差的絕對值。由此可知,現有的搜索引擎不能保證句子距離為零(關鍵字、關鍵詞或標點符號位于同一句子)或句子距離較小(關鍵字、關鍵詞或標點符號位于相鄰句子或相距較近的句子)的網頁的排名靠前。
發明內容
有鑒于現有技術的上述缺陷,本發明所要解決的技術問題是提供一種根據句子序列號進行網頁搜索的方法和裝置,提高關鍵字、關鍵詞或標點符號的句子距離為零或句子距離較小的網頁的排序權值,從而使網頁的排名靠前,提升用戶的搜索滿意度。
本發明公開了一種根據句子序列號進行網頁搜索的方法,包括以下步驟:
A)、獲取若干網頁,并下載至網頁數據庫;
B)、對所述若干網頁進行句子分割,并分別為每個網頁的句子分配序列號;
C)、制作前向索引表,所述前向索引表包括句子序列號;
D)、制作倒排索引表,所述倒排索引表包括所述句子序列號;
E)、輸入搜索項,將所述搜索項分解為至少一個關鍵字、關鍵詞或標點符號;
F)、根據所述倒排索引表,計算包括所述關鍵字、關鍵詞或標點符號的網頁的排序權值,輸出搜索結果。
進一步地,所述步驟B)進一步包括以下步驟:
B1)、索引器掃描所述每個網頁,為所述每個網頁作詞語切分,記錄每個詞、字或標點符號在網頁中的位置;
B2)、根據所述每個詞、字或標點符號在網頁中的位置和后面相鄰的標點符號在網頁中的位置,進行句子分割;
B3)、為每個句子分配序列號,確定所述每個詞、字或標點符號的句子序列號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海萊希信息科技有限公司,未經上海萊希信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010110315.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:防觸電安全插座及插頭
- 下一篇:認證門戶





