[發(fā)明專利]基于語義相似度與時(shí)效性頻率的查詢推薦排序方法與裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710296992.0 | 申請(qǐng)日: | 2017-04-28 |
| 公開(公告)號(hào): | CN107122469B | 公開(公告)日: | 2019-12-17 |
| 發(fā)明(設(shè)計(jì))人: | 蔡飛;陳洪輝;陳皖玉;劉俊先;羅愛民;陳濤;舒振;羅雪山;郭昱普 | 申請(qǐng)(專利權(quán))人: | 中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué) |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535;G06F17/27 |
| 代理公司: | 11270 北京派特恩知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人: | 蔣雅潔;張穎玲 |
| 地址: | 410003 湖*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 語義 相似 時(shí)效性 頻率 查詢 推薦 排序 方法 裝置 | ||
1.一種基于語義相似度與時(shí)效性頻率的查詢推薦排序方法,其特征在于,包括:
獲取用戶查詢記錄數(shù)據(jù)集并采集查詢?cè)~前綴;
根據(jù)查詢?cè)~前綴生成查詢推薦列表并確定時(shí)效性頻率的查詢字排序;
根據(jù)用戶查詢記錄數(shù)據(jù)集與訓(xùn)練用文本數(shù)據(jù)集計(jì)算查詢?cè)~中第一查詢字與其他查詢字的語義相似度,并確定語義相似度的查詢?cè)~排序;
根據(jù)時(shí)效性頻率排序、語義相似度排序與字詞權(quán)衡參數(shù)獲得查詢推薦排序,并根據(jù)查詢推薦排序?qū)Σ樵兺扑]列表中的每個(gè)查詢?cè)~排序顯示;
對(duì)一個(gè)查詢推薦的排序問題,由于公式
分母中的λ值并不影響查詢推薦之間的相對(duì)順序,因此,最終的查詢推薦排序得分簡(jiǎn)化為:
p(q|p)∝p(w|p)×(p(q|w)+λ-1);
其中,p(q|p)為排序得分,0≤λ≤1,p(w|p)表示用戶輸入查詢前綴p后,生成查詢字w的概率,而p(q|w)表示產(chǎn)生第一個(gè)查詢字w后生成查詢?cè)~q的概率;為了計(jì)算這些概率值,采用最大似然估計(jì)來近似,p(w|p)主要依賴于查詢字的在一段時(shí)間內(nèi)的出現(xiàn)次數(shù),而p(q|w)則主要依賴于查詢字之間的語義相似度。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定時(shí)效性頻率的查詢字排序包括:
提取查詢推薦列表所有查詢?cè)~中的第一查詢字;
從用戶查詢記錄數(shù)據(jù)集中獲取每個(gè)查詢字在指定時(shí)間內(nèi)的出現(xiàn)頻率;
根據(jù)所有查詢?cè)~的第一查詢字與每個(gè)查詢字在指定時(shí)間內(nèi)的出現(xiàn)頻率確定時(shí)效性頻率的查詢字排序。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)用戶查詢記錄數(shù)據(jù)集與訓(xùn)練用文本數(shù)據(jù)集計(jì)算查詢?cè)~中第一查詢字與其他查詢字的語義相似度包括:
根據(jù)用戶查詢記錄數(shù)據(jù)集獲得基于用戶查詢記錄數(shù)據(jù)集的第一查詢字與其他查詢字之間的語義相似度;
根據(jù)訓(xùn)練用文本數(shù)據(jù)集獲得基于訓(xùn)練用文本數(shù)據(jù)集的第一查詢字與其他查詢字之間的語義相似度;
根據(jù)基于用戶查詢記錄數(shù)據(jù)集的第一查詢字、其他查詢字之間的語義相似度與基于訓(xùn)練用文本數(shù)據(jù)集的第一查詢字與其他查詢字之間的語義相似度與語義整合權(quán)衡參數(shù)確定查詢?cè)~中第一查詢字與其他查詢字的語義相似度;
針對(duì)搜集到的用戶查詢記錄,訓(xùn)練Skip-gram模型,這樣確保測(cè)試階段的每個(gè)查詢中的查詢字能被Skip-gram模型的向量表示;基于用戶查詢記錄生成的Skip-gram模型,計(jì)算查詢?cè)~q中第一個(gè)查詢字w1與其他查詢字wi∈q之間的語義相似度,以Sq(wi,w1)表示;最后,公式
中的查詢字之間的語義相似度p(wi|w1)通過如下計(jì)算而得:
p(wi|w1)=ω×Sr(wi,w1)+(1-ω)×Sq(wi,w1)
其中,Ssem為語義相似度,q為查詢?cè)~,w為基于查詢?cè)~的第一個(gè)查詢字,p為查詢前綴,Sr(wi,w1)是基于Google-News文本數(shù)據(jù)集訓(xùn)練獲得的查詢字w1與其他查詢字wi∈q之間的語義相似度,Sq(wi,w1)基于用戶查詢記錄數(shù)據(jù)集訓(xùn)練獲得的查詢字w1與其他查詢字wi∈q之間的語義相似度,采用ω來線性整合,獲取最終查詢字之間的語義相似度,ω是一個(gè)權(quán)衡參數(shù),在[0,1]之間。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)用戶查詢記錄數(shù)據(jù)集獲得基于用戶查詢記錄數(shù)據(jù)集的第一查詢字與其他查詢字之間的語義相似度包括:
使用用戶查詢記錄數(shù)據(jù)集訓(xùn)練skip-gram模型;
根據(jù)用戶查詢記錄數(shù)據(jù)集訓(xùn)練的skip-gram模型獲得基于用戶查詢記錄數(shù)據(jù)集的第一查詢字與其他查詢字之間的語義相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710296992.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語義表征和語義計(jì)算的信號(hào)語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 推送包含新聞信息的網(wǎng)頁的方法和裝置
- 基于搜索的時(shí)效性信息網(wǎng)頁結(jié)果的推送方法和裝置
- 網(wǎng)絡(luò)信息的處理方法、裝置、和系統(tǒng)
- 一種用于提供時(shí)效性圖片搜索結(jié)果的方法與設(shè)備
- 生成時(shí)效性種子頁集合的方法和裝置
- 一種時(shí)效性查詢內(nèi)容的識(shí)別方法
- 一種自動(dòng)清理時(shí)效性短信的方法、裝置及移動(dòng)終端
- 一種數(shù)據(jù)處理方法、模擬服務(wù)器及時(shí)效性應(yīng)用
- 時(shí)效性查詢內(nèi)容字段挖掘方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 數(shù)據(jù)處理方法、裝置及電子設(shè)備





