[發(fā)明專利]搜索引擎中的個(gè)性化語(yǔ)義向量模型的訓(xùn)練方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202110191195.2 | 申請(qǐng)日: | 2021-02-19 |
| 公開(kāi)(公告)號(hào): | CN113010771B | 公開(kāi)(公告)日: | 2023-08-22 |
| 發(fā)明(設(shè)計(jì))人: | 陳咨堯;陳強(qiáng);梁龍軍 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535;G06F16/9538;G06F16/951;G06F40/151;G06F40/194;G06F40/30;G06F18/214 |
| 代理公司: | 北京勵(lì)誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 11647 | 代理人: | 趙爽 |
| 地址: | 518057 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 搜索引擎 中的 個(gè)性化 語(yǔ)義 向量 模型 訓(xùn)練 方法 裝置 | ||
本申請(qǐng)實(shí)施例提供了提供一種搜索引擎中的個(gè)性化語(yǔ)義向量模型的訓(xùn)練方法及裝置,涉及區(qū)塊鏈的應(yīng)用服務(wù)技術(shù)領(lǐng)域,該訓(xùn)練方法包括:獲取第一查詢特征和M個(gè)文檔特征,M>0;將該第一查詢特征轉(zhuǎn)換為第一查詢向量,并將該M個(gè)文檔特征分別轉(zhuǎn)換為M個(gè)文檔向量;基于該第一查詢向量和該M個(gè)文檔向量,以預(yù)設(shè)的相似度差值作為訓(xùn)練目標(biāo),訓(xùn)練個(gè)性化語(yǔ)義向量模型。本申請(qǐng)?zhí)峁┑挠?xùn)練方法,通過(guò)個(gè)性化語(yǔ)義向量模型,能夠考慮用戶輸入的詞句在語(yǔ)義上的相關(guān)性,進(jìn)而,能夠提升搜索引擎的推薦準(zhǔn)確度以及用戶體驗(yàn)。
技術(shù)領(lǐng)域
本申請(qǐng)實(shí)施例涉及區(qū)塊鏈的應(yīng)用服務(wù)技術(shù)領(lǐng)域,并且更具體地,涉及搜索引擎中的個(gè)性化語(yǔ)義向量模型的訓(xùn)練方法及裝置。
背景技術(shù)
截止目前,搜索引擎通常將用戶輸入的詞句進(jìn)行分詞之后,再以倒排的方式在文檔庫(kù)中相似度得分靠前的文檔作為推薦的文檔,方便用戶快速查找需要的文檔。但是,利用分詞的方式得到的推薦的文檔和用戶實(shí)際查找的文檔有可能存在出入。例如,假設(shè)用戶輸入的詞句為“道路機(jī)動(dòng)車交通規(guī)則”,采用上述方式,會(huì)先將“道路機(jī)動(dòng)車交通規(guī)則”拆分為“道路”,“機(jī)動(dòng)車”以及“交通規(guī)則”,然后以倒排的方式在文檔庫(kù)中選擇分別命中有這些詞語(yǔ)的文檔,例如,會(huì)優(yōu)先推薦文檔“機(jī)動(dòng)車和在非機(jī)動(dòng)車道路超速行駛算違反什么交通規(guī)則”、文檔“交通規(guī)則中的機(jī)動(dòng)車和非機(jī)動(dòng)車”以及文檔“機(jī)動(dòng)車和電動(dòng)自行車事故”等;然而通常情況下,用戶是希望推薦具體的交通規(guī)則的相關(guān)文檔,例如文檔“交通道路行駛規(guī)則有哪些”或者文檔“交通道路行駛規(guī)則是什么”等。可見(jiàn),雖然實(shí)際推薦的文檔和用戶輸入的詞句是相關(guān)的,但跟用戶實(shí)際需要的文檔存在一定出入,降低了用戶體驗(yàn)。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例提供了提供一種搜索引擎中的個(gè)性化語(yǔ)義向量模型的訓(xùn)練方法及裝置,通過(guò)個(gè)性化語(yǔ)義向量模型,能夠考慮用戶輸入的詞句在語(yǔ)義上的相關(guān)性,進(jìn)而,能夠提升搜索引擎的推薦準(zhǔn)確度以及用戶體驗(yàn)。例如,假設(shè)用戶輸入的詞句為“道路機(jī)動(dòng)車交通規(guī)則”,利用個(gè)性化語(yǔ)義向量模型對(duì)分詞后的特征進(jìn)行語(yǔ)義上的關(guān)聯(lián),使得最終推薦的文檔可以是文檔“交通道路行駛規(guī)則有哪些”等。
一方面,本申請(qǐng)實(shí)施例提供了一種搜索引擎中的個(gè)性化語(yǔ)義向量模型的訓(xùn)練方法,包括:
獲取第一查詢特征和M個(gè)文檔特征,M>0;
將該第一查詢特征轉(zhuǎn)換為第一查詢向量,并將該M個(gè)文檔特征分別轉(zhuǎn)換為M個(gè)文檔向量;
基于該第一查詢向量和該M個(gè)文檔向量,以預(yù)設(shè)的相似度差值作為訓(xùn)練目標(biāo),訓(xùn)練個(gè)性化語(yǔ)義向量模型;
其中,該相似度差值為正例向量和查詢向量之間的相似度得分與負(fù)例向量和查詢向量之間的相似度得分的差值,該正例向量為與查詢特征形成正例的文檔特征轉(zhuǎn)換后的向量,該負(fù)例向量為與查詢特征形成負(fù)例的文檔特征轉(zhuǎn)換后的向量。
另一方面,本申請(qǐng)實(shí)施例提供了一種搜索引擎中的個(gè)性化語(yǔ)義向量模型的訓(xùn)練裝置,包括:
獲取單元,用于獲取第一查詢特征和M個(gè)文檔特征,M>0;
轉(zhuǎn)換單元,用于將該第一查詢特征轉(zhuǎn)換為第一查詢向量,并將該M個(gè)文檔特征分別轉(zhuǎn)換為M個(gè)文檔向量;
訓(xùn)練單元,用于基于該第一查詢向量和該M個(gè)文檔向量,以預(yù)設(shè)的相似度差值作為訓(xùn)練目標(biāo),訓(xùn)練個(gè)性化語(yǔ)義向量模型;
其中,該相似度差值為正例向量和查詢向量之間的相似度得分與負(fù)例向量和查詢向量之間的相似度得分的差值,該正例向量為與查詢特征形成正例的文檔特征轉(zhuǎn)換后的向量,該負(fù)例向量為與查詢特征形成負(fù)例的文檔特征轉(zhuǎn)換后的向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110191195.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 內(nèi)容-索引搜索系統(tǒng)和方法
- 通過(guò)若干搜索引擎實(shí)現(xiàn)的聯(lián)合搜索
- 一種深層網(wǎng)移動(dòng)搜索方法、服務(wù)器及系統(tǒng)
- 搜索引擎的狀態(tài)獲取方法、裝置以及瀏覽器
- 一種瀏覽器中進(jìn)行網(wǎng)頁(yè)搜索的方法及裝置
- 通過(guò)若干搜索引擎實(shí)現(xiàn)的聯(lián)合搜索
- 通過(guò)搜索引擎生成定制化內(nèi)容的方法、系統(tǒng)及搜索引擎
- 通過(guò)搜索引擎?zhèn)鬟f信息的方法、系統(tǒng)及搜索引擎
- 搜索引擎的切換方法、裝置以及電子設(shè)備
- 搜索引擎處理方法、裝置、終端及存儲(chǔ)介質(zhì)
- 頻道信息生成、訪問(wèn)控制、交付方法、IPTV系統(tǒng)及裝置
- 向個(gè)性化回鈴音用戶提供網(wǎng)絡(luò)閃鈴的方法
- 一種個(gè)性化設(shè)置的控制方法、系統(tǒng)及設(shè)備
- 個(gè)性化配置應(yīng)用功能的方法和裝置
- 瀏覽器新建標(biāo)簽頁(yè)的展現(xiàn)方法和瀏覽器客戶端
- 一觸式設(shè)備個(gè)性化
- 一種跨媒介個(gè)性化推薦方法和系統(tǒng)
- 基于大數(shù)據(jù)的證券資訊個(gè)性化服務(wù)系統(tǒng)
- 一種個(gè)性化的交易員教學(xué)自動(dòng)推薦方法和系統(tǒng)
- 實(shí)物禮品的個(gè)性化處理方法、裝置、設(shè)備和可讀存儲(chǔ)介質(zhì)
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





