[發明專利]基于搜索引擎數據庫的樣本自動挖掘方法及裝置有效
| 申請號: | 201410401487.4 | 申請日: | 2014-08-15 |
| 公開(公告)號: | CN105335449B | 公開(公告)日: | 2019-03-01 |
| 發明(設計)人: | 楊軍 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/2458 |
| 代理公司: | 北京市浩天知識產權代理事務所(普通合伙) 11276 | 代理人: | 宋菲;劉云貴 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 搜索引擎 數據庫 樣本 自動 挖掘 方法 裝置 | ||
1.一種基于搜索引擎數據庫的樣本自動挖掘方法,所述搜索引擎數據庫中存儲有搜索詞與域名之間的多對多的對應關系,所述搜索詞對應的域名是指該搜索詞的搜索結果中所有被用戶點擊的網頁的域名;
所述方法包括:
獲取已標注域名集合,所述已標注域名集合中包含多個已標注類目的第一域名;
在所述搜索引擎數據庫中查詢每個第一域名對應的搜索詞,根據該搜索詞對應的已標注類目的第一域名對該搜索詞的類目進行標注,得到已標注搜索詞集合;其中,當該搜索詞對應的多個第一域名屬于不同類目時,根據所述多個第一域名在各個類目下的數量標注該搜索詞的類目;
在搜索引擎數據庫中查找每個已標注類目的搜索詞對應的未標注類目的第二域名,根據該第二域名對應的已標注類目的搜索詞對該第二域名的類目進行標注,并將標注完成的第二域名添加到所述已標注域名集合中;其中,當該第二域名對應的多個搜索詞屬于不同類目時,根據所述多個搜索詞在各個類目下的數量標注該第二域名的類目。
2.根據權利要求1所述的方法,所述獲取已標注域名集合具體為:通過人工標注方式標注多個第一域名的類目,形成所述已標注域名集合。
3.根據權利要求1或2所述的方法,所述在搜索引擎數據庫中查詢每個第一域名對應的搜索詞,根據該搜索詞對應的已標注類目的第一域名對該搜索詞的類目進行標注,得到已標注搜索詞集合的步驟進一步包括:
對于每個第一域名,在搜索引擎數據庫中查詢該第一域名對應的搜索詞,從而查詢到所有第一域名對應的多個搜索詞;
對于每個查詢到的搜索詞,根據該搜索詞對應的至少一個第一域名,標注該搜索詞的類目,從而獲得已標注搜索詞集合。
4.根據權利要求3所述的方法,所述在搜索引擎數據庫中查找每個已標注類目的搜索詞對應的未標注類目的第二域名,根據該第二域名對應的已標注類目的搜索詞對該第二域名的類目進行標注的步驟進一步包括:
對于每個已標注類目的搜索詞,在搜索引擎數據庫中查找該搜索詞對應的未標注類目的第二域名,從而查找到所有已標注類目的搜索詞對應的多個所述第二域名;
對于每個第二域名,根據該第二域名對應的至少一個已標注類目的搜索詞,對該第二域名的類目進行標注。
5.根據權利要求3所述的方法,所述搜索引擎數據庫中還存儲有與搜索詞對應的每個域名的點擊權重值,與搜索詞對應的域名的點擊權重值具體為搜索詞所觸發的該域名的網頁點擊訪問量占搜索詞所觸發的所有網頁點擊訪問量的比例;
所述對于每個查詢到的搜索詞,根據該搜索詞對應的至少一個第一域名,標注該搜索詞的類目的步驟進一步包括:
對于每個查詢到的搜索詞,獲取該搜索詞對應的至少一個第一域名的點擊權重值;
將該搜索詞的類目標注為點擊權重值最大的第一域名的類目。
6.根據權利要求4所述的方法,所述搜索引擎數據庫中還存儲有與搜索詞對應的每個域名的點擊權重值,與搜索詞對應的域名的點擊權重值具體為搜索詞所觸發的該域名的網頁點擊訪問量占搜索詞所觸發的所有網頁點擊訪問量的比例;
所述對于每個第二域名,根據該第二域名對應的至少一個已標注類目的搜索詞,對該第二域名的類目進行標注的步驟進一步包括:
對于每個第二域名,獲取該第二域名對應的至少一個已標注類目的搜索詞,并獲取所述至少一個已標注類目的搜索詞對應的該第二域名的點擊權重值;
將該第二域名的類目標注為點擊權重值最大者對應的搜索詞的類目。
7.根據權利要求1或2所述的方法,還包括:
采用爬蟲技術抓取至少一個第三域名對應的網站首頁內容;
計算所述第三域名對應的網站首頁內容與所述第一域名對應的網站首頁內容的相似度;
根據所述相似度對至少一個第三域名的類目進行標注,并將標注完成的第三域名添加到所述已標注域名集合中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410401487.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于日歷視圖的文件管理系統及方法
- 下一篇:oracle數據庫訪問方法





