[發(fā)明專利]基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘方法及裝置有效
| 申請?zhí)枺?/td> | 201410401487.4 | 申請日: | 2014-08-15 |
| 公開(公告)號: | CN105335449B | 公開(公告)日: | 2019-03-01 |
| 發(fā)明(設(shè)計)人: | 楊軍 | 申請(專利權(quán))人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/2458 |
| 代理公司: | 北京市浩天知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11276 | 代理人: | 宋菲;劉云貴 |
| 地址: | 100088 北京市西城區(qū)新*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 搜索引擎 數(shù)據(jù)庫 樣本 自動 挖掘 方法 裝置 | ||
本發(fā)明公開了一種基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘方法及裝置。其中方法包括:獲取已標注域名集合,所述已標注域名集合中包含多個已標注類目的第一域名;在所述搜索引擎數(shù)據(jù)庫中查詢每個第一域名對應(yīng)的搜索詞,對搜索詞的類目進行標注,得到已標注搜索詞集合;在搜索引擎數(shù)據(jù)庫中查找每個已標注類目的搜索詞對應(yīng)的未標注類目的第二域名,對第二域名的類目進行標注,并將標注完成的第二域名添加到所述已標注域名集合中。本方案通過較為精確的擴展策略完成更豐富的host的挖掘,使得host的標注質(zhì)量較高,較好的改善了文本分類問題中常見的樣本標注的數(shù)量問題和質(zhì)量問題。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘方法及裝置。
背景技術(shù)
數(shù)據(jù)挖掘領(lǐng)域里,文本分類是常用的技術(shù)手段,廣泛應(yīng)用于用戶興趣分類、人口統(tǒng)計屬性建模、垃圾郵件識別等場景。作為典型的有監(jiān)督學習方法,文本分類的質(zhì)量高度依賴于標注樣本的質(zhì)量。而傳統(tǒng)的樣本標注通過人工方式來完成,成本高,主觀性強,不利于標注樣本的收集,從而影響到文本分類的質(zhì)量和效率。
現(xiàn)有技術(shù)提供了一種基于點擊協(xié)同的方式,用以完成樣本的自動挖掘。其原理是人工標注點擊域名(host)的分類,然后在點擊host與文本之間建立起對應(yīng)關(guān)系,通過待標注文本與標注host之間的協(xié)同關(guān)系,完成文本的自動標注過程。由于待標注的host通常較少,而文本則較多,所以通過這種方案能夠在一定程度上緩解標注樣本的工作量。但是,host本身仍然需要人工標注,所以本方案的可擴展性不高。
現(xiàn)有技術(shù)還提供了一種基于偽相關(guān)反饋的樣本挖掘策略。該方案中,首先為每個類目人工選取一定數(shù)量的種子詞,然后將這些種子詞送入搜索引擎,從搜索引擎的返回結(jié)果中提取排名靠前的部分中提取出高權(quán)重詞語,作為種子詞的擴充,再送入搜索引擎,這些擴充后的種子詞以及搜索結(jié)果中排名靠前的文本即作為標注樣本。在該方案中,種子詞的擴充容易往往在擴充過程中會引入概念飄移,最終會影響到自動挖掘出的標注樣本的質(zhì)量。
發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘方法及裝置。
根據(jù)本發(fā)明的一個方面,提供了一種基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘方法,所述搜索引擎數(shù)據(jù)庫中存儲有搜索詞與域名之間的多對多的對應(yīng)關(guān)系,所述搜索詞對應(yīng)的域名是指該搜索詞的搜索結(jié)果中所有被用戶點擊的網(wǎng)頁的域名;
所述方法包括:
獲取已標注域名集合,所述已標注域名集合中包含多個已標注類目的第一域名;
在所述搜索引擎數(shù)據(jù)庫中查詢每個第一域名對應(yīng)的搜索詞,對搜索詞的類目進行標注,得到已標注搜索詞集合;
在搜索引擎數(shù)據(jù)庫中查找每個已標注類目的搜索詞對應(yīng)的未標注類目的第二域名,對第二域名的類目進行標注,并將標注完成的第二域名添加到所述已標注域名集合中。
根據(jù)本發(fā)明的另一方面,提供了一種基于搜索引擎數(shù)據(jù)庫的樣本自動挖掘裝置,包括:
搜索引擎數(shù)據(jù)庫,適于存儲有搜索詞與域名之間的多對多的對應(yīng)關(guān)系,所述搜索詞對應(yīng)的域名是指該搜索詞的搜索結(jié)果中所有被用戶點擊的網(wǎng)頁的域名;
第一域名標注模塊,適于獲取已標注域名集合,所述已標注域名集合中包含多個已標注類目的第一域名;
搜索詞標注模塊,適于在所述搜索引擎數(shù)據(jù)庫中查詢每個第一域名對應(yīng)的搜索詞,對搜索詞的類目進行標注,得到已標注搜索詞集合;
第二域名標注模塊,適于在搜索引擎數(shù)據(jù)庫中查找每個已標注類目的搜索詞對應(yīng)的未標注類目的第二域名,對第二域名的類目進行標注,并將標注完成的第二域名添加到所述已標注域名集合中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經(jīng)北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410401487.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)庫
- 數(shù)據(jù)庫管理系統(tǒng)及數(shù)據(jù)庫
- 數(shù)據(jù)庫構(gòu)筑裝置、數(shù)據(jù)庫檢索裝置、數(shù)據(jù)庫裝置、數(shù)據(jù)庫構(gòu)筑方法、以及數(shù)據(jù)庫檢索方法
- 數(shù)據(jù)庫和數(shù)據(jù)庫處理方法
- 數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫更新方法、數(shù)據(jù)庫以及數(shù)據(jù)庫更新程序
- 容器數(shù)據(jù)庫
- 數(shù)據(jù)庫同步方法及數(shù)據(jù)庫
- 一種MongoDB數(shù)據(jù)庫對象復制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲方法、裝置、電子設(shè)備及存儲介質(zhì)
- 數(shù)據(jù)庫語句執(zhí)行方法及裝置





