[發明專利]語義匹配判定方法、裝置、電子設備、計算機可讀介質在審
| 申請號: | 202011240599.8 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112182348A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 連義江;李爽 | 申請(專利權)人: | 百度國際科技(深圳)有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/955;G06F16/33;G06F16/35;G06F40/279;G06F40/30 |
| 代理公司: | 北京天昊聯合知識產權代理有限公司 11112 | 代理人: | 彭瑞欣;馮建基 |
| 地址: | 518063 廣東省深圳市南山區粵*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義 匹配 判定 方法 裝置 電子設備 計算機 可讀 介質 | ||
1.一種語義匹配判定方法,其特征在于,包括:
從獲取的第一文本的自然搜索結果和第二文本的自然搜索結果中,提取得到第一文本的搜索結果標題和第二文本的搜索結果標題;
基于語義匹配判定模型組件,處理所述第一文本、所述第二文本、所述第一文本的搜索結果標題和所述第二文本的搜索結果標題,得到所述第一文本和所述第二文本的語義匹配得分,得到所述第一文本和所述第二文本的語義匹配判定結果。
2.根據權利要求1所述的方法,其特征在于,所述從獲取的第一文本的自然搜索結果和第二文本的自然搜索結果中,提取得到第一文本的搜索結果標題和第二文本的搜索結果標題,包括:
對所述第一文本的自然搜索結果進行相關性排序,得到第一排序結果,在第一排序結果的展示頁面,將頁號和點擊率滿足第一預定要求的搜索結果標題,作為提取得到的第一文本的搜索結果標題;
對所述第二文本的自然搜索結果進行相關性排序,得到第二排序結果,在第二排序結果的展示頁面,將頁號和點擊率滿足第二預定要求的搜索結果的標題,作為提取得到的第二文本的搜索結果標題。
3.根據權利要求2所述的方法,其特征在于,
所述將頁號和點擊率滿足第一預定要求的搜索結果標題,作為提取得到的第一文本的搜索結果標題,包括:對所述滿足第一預定要求的搜索結果標題進行去噪處理,得到第一搜索結果標題,作為提取得到的第一文本的搜索結果標題;
所述將頁號和點擊率滿足第二預定要求的搜索結果的標題,作為提取得到的第二文本的搜索結果標題,包括:對所述滿足第二預定要求的搜索結果標題進行去噪處理,得到第二搜索結果標題,作為提取得到的第二文本的搜索結果標題。
4.根據權利要求1所述的方法,其特征在于,所述語義匹配判定模型組件包括文本匹配判定模型和標題匹配判定模型;
所述基于語義匹配判定模型組件,處理所述第一文本、所述第二文本、所述第一文本的搜索結果標題和所述第二文本的搜索結果標題,得到所述第一文本和所述第二文本的語義匹配得分,包括:
使用所述文本匹配判斷模型,計算所述第一文本和所述第二文本的第一語義匹配得分;
使用所述標題匹配判斷模型,計算所述第一文本的搜索結果標題和所述第二文本的搜索結果標題的第二語義匹配得分;
使用文本匹配判斷模型權重系數和標題匹配判斷模型權重系數,將所述第一語義匹配得分和所述第二語義匹配得分進行結合,得到所述第一文本和所述第二文本的語義匹配得分。
5.根據權利要求1所述的方法,其特征在于,
所述語義匹配判定模型組件為是根據第一階段樣本數據和第二階段樣本數據進行兩個階段的模型訓練得到的模型;
所述兩個階段的模型訓練包括:根據所述第一階段樣本數據對預設基礎模型進行的第一階段訓練,以及,根據所述第二階段樣本數據對進行第一階段訓練后的模型進行的第二階段訓練。
6.根據權利要求5所述的方法,其特征在于,
所述第一階段樣本數據包括具有正例標記的第一正樣本和具有負例標記的第一負樣本,所述第二階段樣本數據包括具有正例標記的第二正樣本和具有負例標記的第二負樣本;其中,
所述第一正樣本包括:從搜索點擊日志中獲取的滿足第一預定要求的第一文本對、從商家購買日志中獲取的滿足第二預定要求的第二文本對、所述第一文本對中包含的文本所對應的搜索結果標題和所述第二文本對中包含的文本所對應的搜索結果標題;
所述第一負樣本是根據預先獲取的商家負反饋數據構建的樣本數據;
所述第二正樣本包括:由預先采集的第一文本與對應的同義第二文本組成的文本對;
所述第二負樣本包括:由預先采集的第一文本和作為短語包含在所采集的第一文本中的第二文本組成的文本對,以及,由預先采集的第一文本和與所采集的第一文本存在語義相關性的第二文本組成的文本對。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度國際科技(深圳)有限公司,未經百度國際科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011240599.8/1.html,轉載請聲明來源鉆瓜專利網。





