[發(fā)明專利]獲取搜索詞高相關(guān)分類的方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710962298.8 | 申請(qǐng)日: | 2017-10-17 |
| 公開(公告)號(hào): | CN107885783B | 公開(公告)日: | 2020-11-03 |
| 發(fā)明(設(shè)計(jì))人: | 王穎 | 申請(qǐng)(專利權(quán))人: | 北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535 |
| 代理公司: | 中原信達(dá)知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 張一軍;陸錦華 |
| 地址: | 100195 北京市海淀區(qū)杏石口路6*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 獲取 搜索詞 相關(guān) 分類 方法 裝置 | ||
1.一種獲取搜索詞高相關(guān)分類的方法,其特征在于,包括:
獲取搜索會(huì)話數(shù)據(jù),所述搜索會(huì)話數(shù)據(jù)包括搜索一個(gè)搜索詞之后對(duì)召回結(jié)果進(jìn)行的點(diǎn)擊操作數(shù)據(jù);
根據(jù)所述點(diǎn)擊操作數(shù)據(jù)提取點(diǎn)擊特征,并計(jì)算所述點(diǎn)擊特征的點(diǎn)擊特征值;
根據(jù)所述點(diǎn)擊特征值獲取所述搜索詞的高相關(guān)分類;
所述搜索會(huì)話數(shù)據(jù)包括:再搜索詞語、改寫詞條件、再搜索詞語的搜索時(shí)刻、搜索詞的搜索時(shí)刻、搜索會(huì)話的持續(xù)時(shí)間;所述再搜索詞語為在搜索會(huì)話中搜索的不同于所述搜索詞的詞語;
所述方法還包括:
將搜索會(huì)話切割成N個(gè)時(shí)間窗口,每個(gè)時(shí)間窗口的持續(xù)時(shí)間不超過預(yù)設(shè)時(shí)間,N為正整數(shù);針對(duì)每個(gè)時(shí)間窗口內(nèi)的所述再搜索詞語、所述搜索詞,所述改寫詞條件包括:所述再搜索詞語包括所述搜索詞,所述再搜索詞語的搜索時(shí)刻晚于搜索詞第一時(shí)刻;其中,所述搜索詞第一時(shí)刻為所述時(shí)間窗口內(nèi)搜索時(shí)刻最早的所述搜索詞的搜索時(shí)刻;
將滿足所述改寫詞條件的所述再搜索詞語作為所述搜索詞的改寫詞;將所述改寫詞的高相關(guān)分類補(bǔ)充至所述搜索詞的高相關(guān)分類中;或者,按照搜索會(huì)話數(shù)據(jù)中所述改寫詞出現(xiàn)的次數(shù),從高到低對(duì)所述改寫詞排序,選出前M個(gè)改寫詞,將所述前M個(gè)改寫詞的高相關(guān)分類補(bǔ)充至所述搜索詞的高相關(guān)分類中,M為正整數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述點(diǎn)擊特征值獲取所述搜索詞的高相關(guān)分類,包括:
根據(jù)所述點(diǎn)擊特征值,確定所述搜索詞的類目信息;所述類目信息包括:所述搜索詞的類目及其權(quán)值;
將根據(jù)各個(gè)點(diǎn)擊特征值確定的類目信息進(jìn)行加權(quán)求和,得到所述搜索詞的綜合類目信息;
根據(jù)所述綜合類目信息獲取所述搜索詞的高相關(guān)分類。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述點(diǎn)擊特征包括以下至少之一:
所述搜索詞在類目i下的點(diǎn)擊率占比、所述搜索詞在類目i下的點(diǎn)擊次數(shù)占比、在類目i下所述搜索詞作為品牌字段出現(xiàn)的次數(shù);
其中,
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述點(diǎn)擊操作提取點(diǎn)擊特征之前,還包括:
將所述搜索詞的每個(gè)召回結(jié)果按照其被點(diǎn)擊次數(shù)由高到低排序,對(duì)前總點(diǎn)擊次數(shù)m%次的點(diǎn)擊操作進(jìn)行時(shí)間衰減處理:
clickcount表示經(jīng)時(shí)間衰減處理后的t天內(nèi)召回結(jié)果被點(diǎn)擊次數(shù),dt代表距離當(dāng)前日期前x天的日期,x代表dt距離當(dāng)前日期的天數(shù),clickdt指dt對(duì)應(yīng)的召回結(jié)果的被點(diǎn)擊次數(shù)。
5.一種獲取搜索詞高相關(guān)分類的裝置,其特征在于,包括:數(shù)據(jù)獲取模塊、特征提取模塊、高相關(guān)分類獲取模塊;
其中,
所述數(shù)據(jù)獲取模塊,用于獲取搜索會(huì)話數(shù)據(jù),所述搜索會(huì)話數(shù)據(jù)包括搜索一個(gè)搜索詞之后對(duì)召回結(jié)果進(jìn)行的點(diǎn)擊操作數(shù)據(jù);
所述特征提取模塊,用于根據(jù)所述點(diǎn)擊操作數(shù)據(jù)提取點(diǎn)擊特征,并計(jì)算所述點(diǎn)擊特征的點(diǎn)擊特征值;
所述高相關(guān)分類獲取模塊,用于根據(jù)所述點(diǎn)擊特征值獲取所述搜索詞的高相關(guān)分類;
所述數(shù)據(jù)獲取模塊還用于:獲取再搜索詞語、改寫詞條件、再搜索詞語的搜索時(shí)刻、搜索詞的搜索時(shí)刻、搜索會(huì)話的持續(xù)時(shí)間;所述再搜索詞語為在搜索會(huì)話中搜索的不同于所述搜索詞的詞語;將搜索會(huì)話切割成N個(gè)時(shí)間窗口,每個(gè)時(shí)間窗口的持續(xù)時(shí)間不超過預(yù)設(shè)時(shí)間,N為正整數(shù);針對(duì)每個(gè)時(shí)間窗口內(nèi)的所述再搜索詞語、所述搜索詞,所述改寫詞條件包括:所述再搜索詞語包括所述搜索詞,所述再搜索詞語的搜索時(shí)刻晚于搜索詞第一時(shí)刻;其中,所述搜索詞第一時(shí)刻為所述時(shí)間窗口內(nèi)搜索時(shí)刻最早的所述搜索詞的搜索時(shí)刻;
所述高相關(guān)分類獲取模塊還用于:將滿足所述改寫詞條件的所述再搜索詞語作為所述搜索詞的改寫詞;將所述改寫詞的高相關(guān)分類補(bǔ)充至所述搜索詞的高相關(guān)分類中;或者,按照搜索會(huì)話數(shù)據(jù)中所述改寫詞出現(xiàn)的次數(shù),從高到低對(duì)所述改寫詞排序,選出前M個(gè)改寫詞,將所述前M個(gè)改寫詞的高相關(guān)分類補(bǔ)充至所述搜索詞的高相關(guān)分類中,M為正整數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710962298.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





