[發明專利]主題網絡語料庫有效
| 申請號: | 201611233014.3 | 申請日: | 2016-11-17 |
| 公開(公告)號: | CN107025261B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | X·格勒昂;M·尚普努瓦 | 申請(專利權)人: | 達索系統公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/954 |
| 代理公司: | 永新專利商標代理有限公司 72002 | 代理人: | 鄔少俊;王英 |
| 地址: | 法國韋利濟*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 主題 網絡 語料庫 | ||
本發明尤其涉及計算機實現的方法,該方法由存儲搜索引擎的索引的服務器來執行,以用于向客戶端發送與主題有關的網絡語料庫的頁面的URL。該方法包括從客戶端接收對應于主題的結構化的查詢,該結構化的查詢由至少一個關鍵詞的析取組成;在索引中確定由與查詢匹配的所有頁面的URL組成的組;并且將該組的URL作為流發送至客戶端。這種方法改善了主題網絡語料庫的構建。
技術領域
本發明涉及用于網絡爬取(crawl)的計算機程序和系統領域,更具體地為用于構建一個與該主題相關的網絡語料庫的方法,系統和程序。
背景技術
市面上提供了用于網絡爬取的許多系統和程序,以便例如構建任何類型的文檔的語料庫(通常稱作關于文件是從網絡中取回的事實的“網絡語料庫”)。然后語料庫用來做后續的搜索、分析和/或任何其他應用。通常可利用的技術不允許構建專用的網絡語料庫,諸如關于主題的語料庫(或“主題網絡語料庫”),或帶有不完美的精度和/或查全率。
標準網絡爬取(如圖1所示,其表示從上到下的時序圖,例如在Taubes,Gary——Indexing the internet——Science 269.5229,1995中描述的)包含從種子URL開始,在這些URL處下載頁面,并且解析每個頁面以收集更多的URL以訪問。這種方式對于收集主題語料庫是低效的,因為可能在多重鏈接后,與話題無關的頁面可能鏈接至與話題相關的頁面(即與主題相關的頁面)。一種極端的選項是不跟隨(follow)來自話題無關的頁面的鏈接。這帶來低的查全率(即,在構建的語料庫中最終與話題相關的頁面的數量相對于網絡中最初呈現的總數)。另一種極端的選項在于爬取整個網絡。這有一個非常低的精度(即,在構建的語料庫中與話題相關的頁面數目相對于爬取的頁面的總數目,它們包含或不包含在語料庫中)。
因此,發明了聚焦網絡爬取(如圖2所示,其表示從上到下的時序圖,例如在Novak,Blaz——A survey of focused Web crawling algorithms——SIKDD學報5558,2004中描述的)以減輕標準網絡爬取的缺點,相似的方法。聚焦爬取器使用額外的步驟,該步驟包括對網頁給出分數,該分數應當關于該網頁鏈接至最終將鏈接至與話題相關頁面的另一頁面的可能性。通常期望該方法發現在以上描述的極端選項之間的折衷。然而,這仍沒有產生足夠高的精確度或查全率。它僅提高了關于爬取整個網絡的精確率,這是因為它降低了所爬取的與話題無關的頁面的數量。它提高了關于在與話題無關頁面處停止的查全率,這是因為它容許了具有最終鏈接至與話題相關的頁面的高估計概率的某些頁面。
在這些內容中,仍然存在對于高效地構建主題網絡語料庫的改進技術方案的需要,即具有合理的計算費用、精確率和查全率。
發明內容
本發明提供了一種計算機實現的方法,其由存儲搜索引擎索引的服務器執行,以向客戶端發送與主題相關的網絡語料庫的頁面的URL。該方法包括從客戶端接收與主題相對應的結構化的查詢,該結構化的查詢由至少一個關鍵詞的析取組成。該方法還包括確定索引中的組,該組由與查詢相匹配的所有頁面的URL組成。該確定包括在索引上讀取該查詢的析取的關鍵詞,從而從索引中取回URL的至少一個集合,然后針對取回的URL的至少一個集合而執行與該查詢的析取相對應的集合操作的方案,從而產生URL的組。并且該方法包括將該組的URL作為流而發送至客戶端。
在示例中,該組的URL作為流而發送至客戶端可以包括與客戶端建立網絡連接(例如,HTTP連接),在網絡連接上將該組的URL流式傳輸,然后關閉該網絡連接。
本發明進一步提供一種用于構建涉與主題有關的網絡語料庫的、計算機實現的方法。該方法包括又客戶端向存儲搜索引擎的索引的服務器發送與主題相對應的結構化的查詢,該結構化的查詢由至少一個關鍵詞的析取組成;然后,基于該結構化的查詢和根據用于由服務器執行的發送方法,由服務器將網絡語料庫的頁面的URL作為流而發送至客戶端。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于達索系統公司,未經達索系統公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611233014.3/2.html,轉載請聲明來源鉆瓜專利網。





