[發(fā)明專利]聯(lián)想詞去重方法及裝置、計算機可讀存儲介質和電子設備有效
| 申請?zhí)枺?/td> | 202110368415.4 | 申請日: | 2021-04-06 |
| 公開(公告)號: | CN112765966B | 公開(公告)日: | 2021-07-23 |
| 發(fā)明(設計)人: | 劉艾婷 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/247 | 分類號: | G06F40/247;G06F40/30;G06F16/9532 |
| 代理公司: | 深圳市隆天聯(lián)鼎知識產(chǎn)權代理有限公司 44232 | 代理人: | 葉虹 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聯(lián)想 詞去重 方法 裝置 計算機 可讀 存儲 介質 電子設備 | ||
1.一種聯(lián)想詞去重方法,其特征在于,包括:
對查詢關鍵詞進行語義召回,獲得所述查詢關鍵詞的候選聯(lián)想詞;
獲得不同候選聯(lián)想詞之間的語義關聯(lián)特征表示向量,所述語義關聯(lián)特征表示向量表示不同候選聯(lián)想詞之間的語義重復程度;
利用第一分類模型對不同候選聯(lián)想詞之間的語義關聯(lián)特征表示向量進行處理,獲得不同候選聯(lián)想詞之間的第一語義重復指標;
獲得不同候選聯(lián)想詞之間的歷史搜索行為重疊特征表示向量,所述歷史搜索行為重疊特征表示向量表示不同候選聯(lián)想詞之間的搜索行為重疊程度,其中所述搜索行為重疊程度包括將各個候選聯(lián)想詞分別作為搜索關鍵詞進行查詢召回相應的網(wǎng)頁鏈接,用戶對召回的網(wǎng)頁鏈接的操作行為數(shù)據(jù)之間的重疊程度;
利用第二分類模型對不同候選聯(lián)想詞之間的歷史搜索行為重疊特征表示向量進行處理,獲得不同候選聯(lián)想詞之間的第二語義重復指標;
根據(jù)不同候選聯(lián)想詞之間的第一語義重復指標和第二語義重復指標,去重過濾所述候選聯(lián)想詞中存在語義重復的候選聯(lián)想詞,確定目標聯(lián)想詞,以同時展示所述查詢關鍵詞和所述目標聯(lián)想詞;
所述候選聯(lián)想詞中包括第一聯(lián)想詞和第二聯(lián)想詞;其中,獲得不同候選聯(lián)想詞之間的歷史搜索行為重疊特征表示向量,包括:
獲得所述第一聯(lián)想詞作為搜索關鍵詞,在預定時間段內的第一歷史點擊網(wǎng)頁鏈接及其第一歷史點擊量、以及第一歷史曝光網(wǎng)頁鏈接及其第一歷史曝光量;
獲得所述第二聯(lián)想詞作為搜索關鍵詞,在所述預定時間段內的第二歷史點擊網(wǎng)頁鏈接及其第二歷史點擊量、以及第二歷史曝光網(wǎng)頁鏈接及其第二歷史曝光量;
根據(jù)所述第一歷史點擊網(wǎng)頁鏈接及其第一歷史點擊量、以及所述第一歷史曝光網(wǎng)頁鏈接及其第一歷史曝光量、所述第二歷史點擊網(wǎng)頁鏈接及其第二歷史點擊量、以及所述第二歷史曝光網(wǎng)頁鏈接及其第二歷史曝光量,獲得所述第一歷史點擊網(wǎng)頁鏈接和所述第二歷史點擊網(wǎng)頁鏈接之間的點擊網(wǎng)頁鏈接重疊度和網(wǎng)頁鏈接點擊重疊度、所述第一歷史曝光網(wǎng)頁鏈接和所述第二歷史曝光網(wǎng)頁鏈接之間的曝光網(wǎng)頁鏈接重疊度和網(wǎng)頁鏈接曝光重疊度;
根據(jù)所述第一歷史點擊網(wǎng)頁鏈接和所述第二歷史點擊網(wǎng)頁鏈接之間的點擊網(wǎng)頁鏈接重疊度和網(wǎng)頁鏈接點擊重疊度、所述第一歷史曝光網(wǎng)頁鏈接和所述第二歷史曝光網(wǎng)頁鏈接之間的曝光網(wǎng)頁鏈接重疊度和網(wǎng)頁鏈接曝光重疊度,生成不同候選聯(lián)想詞之間的歷史搜索行為重疊特征表示向量;
其中,所述點擊網(wǎng)頁鏈接重疊度表示所述第一歷史點擊網(wǎng)頁鏈接和所述第二歷史點擊網(wǎng)頁鏈接中相同的網(wǎng)頁鏈接的數(shù)量;所述網(wǎng)頁鏈接點擊重疊度表示所述第一歷史點擊網(wǎng)頁鏈接和所述第二歷史點擊網(wǎng)頁鏈接中相同的網(wǎng)頁鏈接對應的點擊量的求和;所述曝光網(wǎng)頁鏈接重疊度表示所述第一歷史曝光網(wǎng)頁鏈接和所述第二歷史曝光網(wǎng)頁鏈接中相同的網(wǎng)頁鏈接的數(shù)量;所述網(wǎng)頁鏈接曝光重疊度表示所述第一歷史曝光網(wǎng)頁鏈接和所述第二歷史曝光網(wǎng)頁鏈接中相同的網(wǎng)頁鏈接對應的曝光量的求和。
2.根據(jù)權利要求1所述的方法,其特征在于,所述候選聯(lián)想詞中包括第一聯(lián)想詞和第二聯(lián)想詞;其中,獲得不同候選聯(lián)想詞之間的語義關聯(lián)特征表示向量,包括:
獲得所述第一聯(lián)想詞和所述第二聯(lián)想詞之間的距離信息;
獲得所述第一聯(lián)想詞和所述第二聯(lián)想詞之間的公共字符信息;
獲得所述第一聯(lián)想詞和所述第二聯(lián)想詞之間的字符串長度信息,其中所述第一聯(lián)想詞和所述第二聯(lián)想詞之間的字符串長度信息包括所述第一聯(lián)想詞的第一字集合和所述第二聯(lián)想詞的第二字集合之間的字集合長度差、所述第一字集合和所述第二字集合之間的字集合長度比、所述第一聯(lián)想詞和所述第二聯(lián)想詞之間的字符串長度差、及所述第一聯(lián)想詞和所述第二聯(lián)想詞之間的字符串長度比中的至少一個;
根據(jù)所述第一聯(lián)想詞和所述第二聯(lián)想詞之間的距離信息、公共字符信息和字符串長度信息,生成所述第一聯(lián)想詞和所述第二聯(lián)想詞之間的語義關聯(lián)特征表示向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110368415.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:圖像識別模型的訓練方法、裝置及設備
- 下一篇:高濃度有機磷廢水的預處理裝置





