[發(fā)明專利]檢索裝置和檢索方法有效
| 申請(qǐng)?zhí)枺?/td> | 201410197261.7 | 申請(qǐng)日: | 2014-05-12 |
| 公開(公告)號(hào): | CN105095270B | 公開(公告)日: | 2019-02-26 |
| 發(fā)明(設(shè)計(jì))人: | 強(qiáng)閏偉;費(fèi)躍;楊建武 | 申請(qǐng)(專利權(quán))人: | 北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司 |
| 主分類號(hào): | G06F16/9536 | 分類號(hào): | G06F16/9536 |
| 代理公司: | 北京友聯(lián)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
| 地址: | 100871*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 檢索 裝置 方法 | ||
1.一種檢索裝置,其特征在于,包括:
建模單元,用于在接收到查詢語(yǔ)句和微博文檔時(shí),對(duì)所述查詢語(yǔ)句和所述微博文檔進(jìn)行預(yù)處理,并根據(jù)預(yù)處理后的查詢語(yǔ)句和微博文檔創(chuàng)建原始查詢模型和原始文檔模型;
確定單元,連接至所述建模單元,用于從外部知識(shí)數(shù)據(jù)庫(kù)中獲取與所述原始查詢模型相關(guān)聯(lián)的知識(shí)條目,并根據(jù)所述原始查詢模型和所述知識(shí)條目確定知識(shí)查詢語(yǔ)句;
查詢擴(kuò)展單元,連接至所述確定單元,用于根據(jù)所述知識(shí)查詢語(yǔ)句創(chuàng)建知識(shí)查詢模型,并根據(jù)所述知識(shí)查詢模型和所述原始查詢模型確定擴(kuò)展查詢模型;
查找單元,連接至所述查詢擴(kuò)展單元,用于在所述微博文檔中包含社交標(biāo)簽時(shí),根據(jù)所述社交標(biāo)簽從語(yǔ)料集中查找出所述微博文檔對(duì)應(yīng)的社交鄰居文檔,并創(chuàng)建社交鄰居文檔模型;
文檔擴(kuò)展單元,連接至所述查找單元,用于根據(jù)所述社交鄰居文檔模型、所述原始文檔模型和所述語(yǔ)料集得到擴(kuò)展文檔模型,并根據(jù)所述擴(kuò)展文檔模型確定目標(biāo)檢索結(jié)果;
其中,所述社交鄰居文檔為關(guān)聯(lián)文檔。
2.根據(jù)權(quán)利要求1所述的檢索裝置,其特征在于,還包括:
結(jié)果確定單元,用于計(jì)算所述擴(kuò)展查詢模型和所述擴(kuò)展文檔模型之間的相似度,并根據(jù)所述相似度排行重新確定目標(biāo)檢索結(jié)果。
3.根據(jù)權(quán)利要求1所述的檢索裝置,其特征在于,所述確定單元還包括:
計(jì)算單元,計(jì)算所述原始查詢模型和所述原始文檔模型之間的相似度,并根據(jù)所述相似度確定所述查詢語(yǔ)句對(duì)應(yīng)的偽相關(guān)文檔;
打分單元,所述打分單元連接至所述計(jì)算單元,用于根據(jù)所述偽相關(guān)文檔中每個(gè)文檔的查詢時(shí)間、發(fā)布時(shí)間和/或刻畫時(shí)間先驗(yàn)重要性為所述知識(shí)條目中的候選擴(kuò)展詞打分,并根據(jù)打分結(jié)果確定所述知識(shí)查詢語(yǔ)句。
4.根據(jù)權(quán)利要求3所述的檢索裝置,其特征在于,所述打分單元依據(jù)下列公式為所述知識(shí)條目中的所述候選擴(kuò)展詞打分:
其中,Score(w)為所述候選擴(kuò)展詞得分,P(D)為文檔的先驗(yàn)概率,PRD為所述偽相關(guān)文檔,P(w|D)為任一候選擴(kuò)展詞w在文檔D中出現(xiàn)的概率,P(qi|D)為查詢語(yǔ)句qi在文檔D中出現(xiàn)的概率。
5.根據(jù)權(quán)利要求1所述的檢索裝置,其特征在于,所述查詢擴(kuò)展單元依據(jù)下列公式計(jì)算得到所述擴(kuò)展查詢模型:
其中,為所述擴(kuò)展查詢模型,為所述原始查詢模型,為所述知識(shí)查詢模型,α為權(quán)重值。
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的檢索裝置,其特征在于,所述文檔擴(kuò)展單元依據(jù)下列公式計(jì)算得到所述擴(kuò)展文檔模型:
其中,為所述擴(kuò)展查詢模型,為所述語(yǔ)料集對(duì)應(yīng)的背景語(yǔ)料模型,為所述社交鄰居文檔模型,為所述原始文檔模型,η和r為平滑參數(shù)。
7.一種檢索方法,其特征在于,包括:
在接收到查詢語(yǔ)句和微博文檔時(shí),對(duì)所述查詢語(yǔ)句和所述微博文檔進(jìn)行預(yù)處理,并根據(jù)預(yù)處理后的查詢語(yǔ)句和微博文檔創(chuàng)建原始查詢模型和原始文檔模型;
從外部知識(shí)數(shù)據(jù)庫(kù)中獲取與所述原始查詢模型相關(guān)聯(lián)的知識(shí)條目,并根據(jù)所述原始查詢模型和所述知識(shí)條目確定知識(shí)查詢語(yǔ)句;
根據(jù)所述知識(shí)查詢語(yǔ)句創(chuàng)建知識(shí)查詢模型,并根據(jù)所述知識(shí)查詢模型和所述原始查詢模型確定擴(kuò)展查詢模型;
在所述微博文檔中包含社交標(biāo)簽時(shí),根據(jù)所述社交標(biāo)簽從語(yǔ)料集中查找出所述微博文檔對(duì)應(yīng)的社交鄰居文檔,并創(chuàng)建社交鄰居文檔模型;
根據(jù)所述社交鄰居文檔模型、所述原始文檔模型和所述語(yǔ)料集得到擴(kuò)展文檔模型,并根據(jù)所述擴(kuò)展文檔模型確定目標(biāo)檢索結(jié)果;
其中,所述社交鄰居文檔為關(guān)聯(lián)文檔。
8.根據(jù)權(quán)利要求7所述的檢索方法,其特征在于,還包括:
計(jì)算所述擴(kuò)展查詢模型和所述擴(kuò)展文檔模型之間的相似度,并根據(jù)所述相似度排行重新確定目標(biāo)檢索結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司,未經(jīng)北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410197261.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





