[發(fā)明專利]信息檢索方法、裝置、設(shè)備及計算機(jī)可讀介質(zhì)有效
| 申請?zhí)枺?/td> | 201810635964.1 | 申請日: | 2018-06-20 |
| 公開(公告)號: | CN110633407B | 公開(公告)日: | 2022-05-24 |
| 發(fā)明(設(shè)計)人: | 范淼;余金星;竇澤皓;孫明明;李平;王海峰 | 申請(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 北京市鑄成律師事務(wù)所 11313 | 代理人: | 張臻賢;王珺 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 信息 檢索 方法 裝置 設(shè)備 計算機(jī) 可讀 介質(zhì) | ||
本發(fā)明提出一種信息檢索方法,包括:通過搜索引擎檢索與查詢請求相關(guān)的網(wǎng)頁;從檢索到的網(wǎng)頁中提取與所述查詢請求相關(guān)的文本并拼接得到拼接文本;在所述拼接文本中截取文本片段;將所截取的文本片段發(fā)送至搜索引擎,以使得搜索引擎在信息檢索結(jié)果中顯示所截取的文本片段。本發(fā)明實(shí)施例給搜索引擎在用戶體驗(yàn)和交互方面帶來極大的優(yōu)勢,能夠滿足用戶對智能問答這一功能的需求。通過本發(fā)明實(shí)施例,能夠直接為用戶展示與檢索請求相關(guān)性較強(qiáng)的簡短文本,節(jié)省用戶的信息篩選時間。
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種基于機(jī)器閱讀的信息檢索方法及裝置、設(shè)備和計算機(jī)可讀介質(zhì)。
背景技術(shù)
當(dāng)前搜索引擎的核心是信息檢索技術(shù)。早期的檢索是基于目錄的手工檢索;而目前的檢索則是基于計算機(jī)的數(shù)據(jù)庫檢索,包括音樂檢索、購物檢索、視頻檢索、圖片檢索等。
搜索引擎現(xiàn)有的信息檢索一般分為兩步:第一步是信息的儲存,把所有能夠?yàn)橛脩羲玫男畔?如各個門類的百科知識,各個領(lǐng)域的時事新聞等)以某種合適的方式組織并儲存起來;第二步是狹義的檢索,根據(jù)用戶輸入的關(guān)鍵詞或者關(guān)鍵特征從儲存的所有信息中檢索出最滿足用戶要求的一些條目。
隨著用戶需求的多樣性和逐漸個性化的發(fā)展趨勢,如今的搜索引擎面臨著一個非常大的交互革新的機(jī)會:在很多情況下,用戶并不是想要全面具體地了解某件事物的各個方面,而是希望搜索引擎能夠準(zhǔn)確地反饋查詢意圖,不求相關(guān)資料豐富與否,只求反饋的資料盡量簡潔、精準(zhǔn)。例如,在百度搜索引擎中我們搜索“今天百度的股票怎么樣”,我們希望搜索引擎能夠反饋百度這支股票的漲跌情況,或者收盤價、換手率情況等。只要查詢的反饋?zhàn)銐蚓珳?zhǔn),一句話甚至一個數(shù)字即可滿足用戶的需求。目前搜索引擎得到搜索結(jié)果為關(guān)于股票的討論、百度股價的網(wǎng)頁、新聞等鏈接和部分與查詢意圖無關(guān)的摘要。
再比如,在搜索引擎中搜索“XX公司在2016年賺了多少錢”,我們想要的只是一個準(zhǔn)確的數(shù)字,然而搜到的前幾條結(jié)果都是對XX公司的介紹、官網(wǎng)和有關(guān)Tesla的新聞報道,并沒有一條準(zhǔn)確地回應(yīng)了我們的查詢。
在信息檢索方面,現(xiàn)有的主流方法包括:基于布爾檢索模型的直接檢索方法,基于概率或向量空間模型的相似度方法與樸素貝葉斯算法,基于網(wǎng)頁鏈接的重要性分析法。
(1)基于布爾檢索模型的直接檢索方法,根據(jù)用戶的需求來構(gòu)造一個布爾條件,布爾條件由and、if、not來組成。例如如果想要從所有的文本中挑選所有帶有詞條“自動駕駛”,但不帶有“撞車”兩個字的文本,輸入一個布爾條件:“自動駕駛”and(not“撞車”)即可。
(2)基于概率或向量空間模型的相似度方法與樸素貝葉斯算法,通過建立向量模型或概率模型,計算用戶輸入的查詢與數(shù)據(jù)庫中所有文本的相似度或關(guān)聯(lián)概率,然后將它們按照從高到低的順序進(jìn)行排序,呈現(xiàn)在用戶的面前。
(3)基于網(wǎng)頁鏈接的重要性分析法,尤其是著名的PageRank算法可以計算出每一個網(wǎng)頁的相對重要性,作為檢索結(jié)果排序的重要指標(biāo),大幅度提高了搜索引擎的用戶體驗(yàn)。
上述信息檢索技術(shù)的優(yōu)缺點(diǎn)如下:
(1)基于布爾檢索模型的直接檢索方法,具備容易操作的優(yōu)點(diǎn),但是其檢索結(jié)果文檔是沒有任何辦法進(jìn)行排序的,只有匹配與不匹配之分,而且其檢索結(jié)果往往過多或者過少。
(2)基于概率或向量空間模型的相似度方法與樸素貝葉斯算法,以詞頻作為核心的參考因素,并沒有考慮到詞之間和字之間的順序,也并沒有完整地理解任何文本的真實(shí)含義,僅僅是比對不同字、不同詞出現(xiàn)的頻率,因此經(jīng)常出現(xiàn)檢索結(jié)果的不準(zhǔn)確。
(3)基于網(wǎng)頁鏈接的重要性分析法,由于最重要的網(wǎng)頁往往是一些官網(wǎng),或者政府的網(wǎng)站,而在大多數(shù)情況下,這些網(wǎng)頁并不是我們所需要的,因此可能無法滿足用戶需求。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種信息檢索方法、裝置、設(shè)備及計算機(jī)可讀介質(zhì),以解決或緩解現(xiàn)有技術(shù)中的一個或多個技術(shù)問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810635964.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





