[發明專利]短串相關性校驗方法和裝置有效
| 申請號: | 201710063676.9 | 申請日: | 2017-02-03 |
| 公開(公告)號: | CN108388480B | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 王奕;連義江;李正琪 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F11/07 | 分類號: | G06F11/07;G06Q30/02 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相關性 校驗 方法 裝置 | ||
本發明公開了短串相關性校驗方法和裝置,所述方法包括:獲取第一短串;獲取與第一短串相對應的第二短串;分別將獲取到的每個第二短串與第一短串組成一個校驗對;獲取校驗對的深層語義特征;根據深層語義特征,確定出校驗對中的兩個短串之間的相關性。應用本發明所述方案,能夠提高校驗結果的準確性等。
【技術領域】
本發明涉及網絡技術,特別涉及短串相關性校驗方法和裝置。
【背景技術】
在很多場景中,都會涉及到短串相關性校驗的問題,短串,通常是指比較短的字符串,如長度小于預定閾值的字符串。
比如,在廣告觸發系統中,當用戶輸入查詢詞(query)后,會觸發出一批拍賣詞(bidword),需要分別確定出用戶輸入的query與觸發出的各bidword之間的相關性,進而將相關性較高的bidword對應的廣告展現給用戶。
短串相關性校驗,即指對兩個短串的相關性進行評估、進行打分等。
現有技術中,主要是從文本字面相似度上來對兩個短串的相關性進行校驗,校驗結果的準確性較差。
【發明內容】
有鑒于此,本發明提供了短串相關性校驗方法和裝置,能夠提高校驗結果的準確性。
具體技術方案如下:
一種短串相關性校驗方法,包括:
獲取第一短串;
獲取與所述第一短串相對應的第二短串;
分別將獲取到的每個第二短串與所述第一短串組成一個校驗對;
獲取所述校驗對的深層語義特征;
根據所述深層語義特征,確定出所述校驗對中的兩個短串之間的相關性。
根據本發明一優選實施例,所述深層語義特征包括以下任一類特征或任意組合:
行為類特征、語義類特征、IP類特征。
根據本發明一優選實施例,所述根據所述深層語義特征,確定出所述校驗對中的兩個短串之間的相關性包括:
將所述深層語義特征輸入迭代決策樹GBDT模型;
將所述GBDT模型的輸出結果作為所述校驗對中的兩個短串之間的相關性確定結果。
根據本發明一優選實施例,所述將所述深層語義特征輸入GBDT模型包括:
當所述深層語義特征數大于一時,對所述深層語義特征進行預處理,包括:將符合組合要求的深層語義特征進行組合;
將進行預處理后的深層語義特征輸入所述GBDT模型。
根據本發明一優選實施例,該方法進一步包括:
增大選定的區分力強的深層語義特征在所述GBDT模型的處理過程中的權重。
根據本發明一優選實施例,所述第一短串包括:查詢詞query;所述第二短串包括:拍賣詞bidword。
一種短串相關性校驗裝置,包括:獲取模塊以及處理模塊;
所述獲取模塊,用于獲取第一短串,并獲取與所述第一短串相對應的第二短串,將所述第一短串和所述第二短串發送給所述處理模塊;
所述處理模塊,用于分別將獲取到的每個第二短串與所述第一短串組成一個校驗對,獲取所述校驗對的深層語義特征,根據所述深層語義特征,確定出所述校驗對中的兩個短串之間的相關性。
根據本發明一優選實施例,所述深層語義特征包括以下任一類特征或任意組合:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710063676.9/2.html,轉載請聲明來源鉆瓜專利網。





