[發(fā)明專利]數(shù)據(jù)消歧方法、裝置及計算機(jī)設(shè)備有效
| 申請?zhí)枺?/td> | 201710807103.2 | 申請日: | 2017-09-08 |
| 公開(公告)號: | CN107609094B | 公開(公告)日: | 2020-12-04 |
| 發(fā)明(設(shè)計)人: | 劉瓊瓊 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F40/289 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 方法 裝置 計算機(jī) 設(shè)備 | ||
1.一種數(shù)據(jù)消歧方法,其特征在于,包括以下步驟:
構(gòu)造訓(xùn)練數(shù)據(jù);
對所述訓(xùn)練數(shù)據(jù)中每條數(shù)據(jù),基于待分類類別進(jìn)行標(biāo)注,得到標(biāo)注為屬于所述待分類類別的多條第一數(shù)據(jù)和標(biāo)注為不屬于所述待分類類別的多條第二數(shù)據(jù);
基于用戶點擊行為日志確定與每條第一數(shù)據(jù)相關(guān)的特征并作為第一特征,以及與每條第二數(shù)據(jù)相關(guān)的特征并作為第二特征,所述第一特征和所述第二特征包括:字面特征和用戶行為特征;
根據(jù)所述第一特征和所述第二特征對所述每條第一數(shù)據(jù)和每條第二數(shù)據(jù)對應(yīng)的標(biāo)注進(jìn)行訓(xùn)練;
所述根據(jù)所述第一特征和所述第二特征對所述每條第一數(shù)據(jù)和每條第二數(shù)據(jù)對應(yīng)的標(biāo)注進(jìn)行訓(xùn)練,包括:
根據(jù)第一數(shù)據(jù)的點擊特征生成第一候選URL集合,并根據(jù)第二數(shù)據(jù)的點擊特征生成第二候選URL集合;
分別根據(jù)通用的URL負(fù)例集合對所述第一候選URL集合和所述第二候選URL集合進(jìn)行過濾,得到第一當(dāng)前URL集合和第二當(dāng)前URL集合;
分別從所述第一當(dāng)前URL集合和所述第二當(dāng)前URL集合中,篩選出點擊次數(shù)大于或等于第一預(yù)設(shè)值的URL作為第一目標(biāo)URL集合和第二目標(biāo)URL集合;
判斷所述第一目標(biāo)URL集合和第二目標(biāo)URL集合與歷史挖掘出的候選URL集合的相似性是否滿足預(yù)設(shè)條件;
將滿足所述預(yù)設(shè)條件的URL作為第一最終URL集合和第二最終URL集合;
將所述第一最終URL集合和第二最終URL集合,以及所述第一特征和所述第二特征作為GBDT決策樹算法的輸入,根據(jù)所述算法的輸出作為與所述待分類類別對應(yīng)的分類模型;
基于所述與所述待分類類別對應(yīng)的分類模型,對所述每條第一數(shù)據(jù)和每條第二數(shù)據(jù)對應(yīng)的標(biāo)注進(jìn)行訓(xùn)練。
2.如權(quán)利要求1所述的數(shù)據(jù)消歧方法,其特征在于,所述用戶行為特征為點擊特征,所述基于用戶點擊行為日志確定與每條第一數(shù)據(jù)相關(guān)的特征并作為第一特征,以及與每條第二數(shù)據(jù)相關(guān)的特征并作為第二特征,所述第一特征和所述第二特征包括:字面特征和用戶行為特征,包括:
分別確定所述每條第一數(shù)據(jù)和每條第二數(shù)據(jù)的長度特征;
分別對所述每條第一數(shù)據(jù)和每條第二數(shù)據(jù)進(jìn)行分詞,得到分詞結(jié)果,并將所述長度特征和所述分詞結(jié)果作為所述字面特征;
從預(yù)設(shè)類別關(guān)鍵詞庫中,確定屬于所述待分類類別的類別關(guān)鍵詞,并根據(jù)所述屬于所述待分類類別的類別關(guān)鍵詞生成第一關(guān)鍵詞集合;
從所述預(yù)設(shè)類別關(guān)鍵詞庫中,確定不屬于所述待分類類別的類別關(guān)鍵詞,并根據(jù)所述不屬于所述待分類類別的關(guān)鍵詞生成第二關(guān)鍵詞集合;
從所述用戶點擊行為日志中,確定屬于所述待分類類別的類別url,并根據(jù)所述屬于所述待分類類別的類別url生成第一url集合;
根據(jù)通用的URL負(fù)例集合,確定不屬于所述待分類類別的類別url,并根據(jù)所述不屬于所述待分類類別的類別url生成第二url集合;
將所述第一關(guān)鍵詞集合和所述第一url集合作為與所述第一數(shù)據(jù)對應(yīng)的第一相關(guān)推薦,將所述第二關(guān)鍵詞集合和所述第二url集合作為與所述第二數(shù)據(jù)對應(yīng)的第二相關(guān)推薦;
根據(jù)所述用戶點擊行為日志,確定用戶點擊所述第一相關(guān)推薦的第一次數(shù),用戶搜索所述第一相關(guān)推薦的第一次數(shù),所述第一url集合中的網(wǎng)站URL對應(yīng)的標(biāo)題中,包含所述第一關(guān)鍵詞集合中的類別關(guān)鍵詞的第一次數(shù),并將所述第一次數(shù)作為與所述第一數(shù)據(jù)對應(yīng)的點擊特征;
根據(jù)所述用戶點擊行為日志,確定用戶點擊所述第二相關(guān)推薦的第二次數(shù),用戶搜索所述第二相關(guān)推薦的第二次數(shù),所述第二url集合中的網(wǎng)站URL對應(yīng)的標(biāo)題中,包含所述第二關(guān)鍵詞集合中的類別關(guān)鍵詞的第二次數(shù),并將所述第二次數(shù)作為與所述第二數(shù)據(jù)對應(yīng)的點擊特征;
將所述每條第一數(shù)據(jù)的字面特征和所述點擊特征作為與其對應(yīng)的第一特征,將所述每條第二數(shù)據(jù)的字面特征和所述點擊特征作為與其對應(yīng)的第二特征。
3.如權(quán)利要求1所述的數(shù)據(jù)消歧方法,其特征在于,所述基于所述與所述待分類類別對應(yīng)的分類模型,對所述每條第一數(shù)據(jù)和每條第二數(shù)據(jù)對應(yīng)的標(biāo)注進(jìn)行訓(xùn)練,包括:
分別將標(biāo)注為屬于所述待分類類別的多條第一數(shù)據(jù)的第一特征,和標(biāo)注為不屬于所述待分類類別的多條第二數(shù)據(jù)的第二特征,作為所述分類模型的輸入,得到所述分類模型輸出的與第一特征和第二特征對應(yīng)的分類標(biāo)簽;
根據(jù)所述與每個第一特征和每個第二特征對所述每條第一數(shù)據(jù)和每條第二數(shù)據(jù)對應(yīng)的標(biāo)注進(jìn)行訓(xùn)練。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710807103.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 雙桌面遠(yuǎn)程控制系統(tǒng)及方法
- 一種基于網(wǎng)絡(luò)的計算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計算機(jī)信息檢索系統(tǒng)與方法
- 雙計算機(jī)系統(tǒng)
- 制導(dǎo)雷達(dá)計算機(jī)系統(tǒng)
- 一種服務(wù)部署方法及裝置
- 一種計算機(jī)集成系統(tǒng)及故障自動切換方法
- 一種計算機(jī)信息安全監(jiān)控系統(tǒng)
- 混合型量子計算機(jī)架構(gòu)及其執(zhí)行計算任務(wù)的方法





