[發明專利]語義數據的處理方法及搜索方法、裝置在審
| 申請號: | 202111115438.0 | 申請日: | 2021-09-23 |
| 公開(公告)號: | CN113869060A | 公開(公告)日: | 2021-12-31 |
| 發明(設計)人: | 程鳴權;徐偉;劉歡;李雅楠;王海威;陳坤斌;和為 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 羅嵐 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義 數據 處理 方法 搜索 裝置 | ||
1.一種語義數據的處理方法,應用于智能搜索系統,所述方法包括:
根據目標領域的歷史搜索數據,構建無監督訓練數據,所述無監督訓練數據包括多個第一訓練樣本;
通過所述無監督訓練數據訓練預訓練編碼模型,得到訓練好的預訓練編碼模型,其中,所述預訓練編碼模型具有數據擴增功能;
根據目標領域的歷史搜索數據,構建半監督訓練數據,所述半監督訓練數據包括多個第二訓練樣本;
通過所述半監督訓練數據訓練文本語義匹配模型,得到訓練好的文本語義匹配模型,其中,所述文本語義匹配模型包括所述訓練好的預訓練編碼模型和損失函數,所述訓練好的預訓練編碼模型輸出的向量作為所述損失函數的輸入。
2.根據權利要求1所述的方法,其中,所述根據目標領域的歷史搜索數據,構建無監督訓練數據,所述無監督訓練數據包括多個第一訓練樣本,包括:
根據所述歷史搜索數據確定多個搜索問題和多個文章主題,從所述多個搜索問題中獲取多個第一序列,將所述多個第一序列之中當前第一序列與其本身或者與其他第一序列構成第一訓練樣本;
從所述多個文章主題中獲取多個第二序列,將所述多個第二序列之中當前第二序列與其本身或者與其他第二序列構成第一訓練樣本。
3.根據權利要求1所述的方法,其中,所述根據目標領域的歷史搜索數據,構建半監督訓練數據,所述半監督訓練數據包括多個第二訓練樣本,包括:
根據歷史搜索數據確定多個搜索問題、多個文章主題、以及所述多個搜索問題和多個文章主題之間的點擊關系,從所述多個搜索問題中獲取多個第一序列,并從所述多個文章主題中獲取多個第二序列,根據所述點擊關系,將所述第一序列和所述第二序列構成的序列對作為第二訓練樣本。
4.根據權利要求3所述的方法,其中,所述第二訓練樣本包括序列對難分負樣本,所述序列對難分負樣本的獲取方法,包括:
通過預訓練模型計算每個所述序列對中兩個序列的相似度得分,并篩選出所述相似度得分滿足預設范圍的第一目標序列對;
分別對所述第一目標序列對中的兩個序列進行切詞,將擁有相同切詞的第一目標序列對作為序列對難分負樣本。
5.根據權利要求4所述的方法,其中,所述第二訓練樣本包括序列對正樣本和序列對負樣本;
所述序列對正樣本的獲取方法,包括:
獲取所述第一序列與第二序列存在點擊關系的多個序列對;
確定所述多個序列對中滿足點擊頻率范圍的第二目標序列對;
對所述第二目標序列對進行清洗,將清洗后的第二目標序列對作為序列對正樣本;
所述序列對負樣本的獲取方法,包括:
將所述多個第二訓練樣本中除序列對正樣本之外的第二訓練樣本作為序列對負樣本。
6.根據權利要求5所述的方法,其中,所述損失函數為pair-wise的損失函數,針對所述序列對負樣本和序列對難分負樣本,所述pair-wise的損失函數的邊界參數m選擇不同的取值。
7.一種搜索方法,包括:
接收終端的搜索請求,獲取所述搜索請求中的搜索問題;
將所述搜索問題輸入預先訓練好的預訓練編碼模型,得到第一向量;所述預訓練編碼模型為如權利要求1-6任一所述的文本語義匹配模型中的預訓練編碼模型;
獲取多個文章主題各自的第二向量;其中,所述第二向量通過將所述文章主題輸入預先訓練好的預訓練編碼模型得到,所述預訓練編碼模型為如權利要求1-6任一所述的文本語義匹配模型中的預訓練編碼模型;
計算所述第一向量與所述第二向量之間的相似度,并從所述多個文章主題中,確定出所述相似度滿足預設條件的目標文章主題;
將所述目標文章主題對應的文章返回給所述終端。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111115438.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





