[發(fā)明專利]信息檢索方法、裝置、設(shè)備及計算機(jī)可讀介質(zhì)有效
| 申請?zhí)枺?/td> | 201810635964.1 | 申請日: | 2018-06-20 |
| 公開(公告)號: | CN110633407B | 公開(公告)日: | 2022-05-24 |
| 發(fā)明(設(shè)計)人: | 范淼;余金星;竇澤皓;孫明明;李平;王海峰 | 申請(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 北京市鑄成律師事務(wù)所 11313 | 代理人: | 張臻賢;王珺 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 信息 檢索 方法 裝置 設(shè)備 計算機(jī) 可讀 介質(zhì) | ||
1.一種信息檢索方法,其特征在于,包括:
通過搜索引擎檢索與查詢請求相關(guān)的網(wǎng)頁;
從檢索到的網(wǎng)頁中提取與所述查詢請求相關(guān)的文本并拼接得到拼接文本;
從所述拼接文本中截取與所述查詢請求相關(guān)的文本片段;
將所截取的文本片段發(fā)送至搜索引擎,以使得搜索引擎在信息檢索結(jié)果中顯示所截取的文本片段;
其中,所述從檢索到的網(wǎng)頁中提取與所述查詢請求相關(guān)的文本并拼接得到拼接文本的步驟中,包括:
計算檢索到的各文章的每個段落與所述查詢請求的相似度;所述檢索到的網(wǎng)頁包括所述檢索到的各文章;
從每篇文章中選取相似度最高的段落;
將所選取的多個段落拼接得到所述拼接文本;
所述從所述拼接文本中截取與所述查詢請求相關(guān)的文本片段,包括:
構(gòu)建機(jī)器閱讀理解模型;其中,所述機(jī)器閱讀理解模型是利用深度人工神經(jīng)網(wǎng)絡(luò)算法構(gòu)建的用于模擬人閱讀段落的模型,訓(xùn)練所述機(jī)器閱讀理解模型包括:從訓(xùn)練數(shù)據(jù)中查詢對應(yīng)于訓(xùn)練數(shù)據(jù)的問題,得到的答案為所述訓(xùn)練數(shù)據(jù)中最簡潔的連續(xù)文本片段;所述訓(xùn)練數(shù)據(jù)包括中文語料和英文語料;
通過所述機(jī)器閱讀理解模型從所述拼接文本中截取與所述查詢請求相關(guān)的連續(xù)文本片段。
2.根據(jù)權(quán)利要求1所述的信息檢索方法,其特征在于,所述通過搜索引擎檢索與查詢請求相關(guān)的網(wǎng)頁的步驟,包括:
根據(jù)所檢索到的網(wǎng)頁中文章與所述查詢請求的相關(guān)度,對各文章進(jìn)行降序排序;
從排序結(jié)果中選取與查詢請求相關(guān)度最高的N篇文章,N為預(yù)設(shè)的整數(shù)。
3.根據(jù)權(quán)利要求1所述的信息檢索方法,其特征在于,所述計算檢索到的各文章的每個段落與所述查詢請求的相似度的步驟中,包括:
構(gòu)建查詢請求與段落的相似度計算模型;
通過所述相似度計算模型計算檢索到的文章的每個段落與所述查詢請求的相似度。
4.一種信息檢索裝置,其特征在于,包括:
檢索模塊,用于通過搜索引擎檢索與查詢請求相關(guān)的網(wǎng)頁;
提取模塊,用于從檢索到的網(wǎng)頁中提取與所述查詢請求相關(guān)的文本并拼接得到拼接文本;
讀取模塊,用于從所述拼接文本中截取與所述查詢請求相關(guān)的文本片段;
反饋模塊,用于將所截取的文本片段發(fā)送至搜索引擎,以使得搜索引擎在信息檢索結(jié)果中顯示所截取的文本片段;
其中,所述提取模塊包括:
相似度計算子模塊,用于計算檢索到的各文章的每個段落與所述查詢請求的相似度;所述檢索到的網(wǎng)頁包括所述檢索到的各文章;
第二選取子模塊,用于從每篇文章中選取相似度最高的段落;
憑借子模塊,用于將所選取的多個段落拼接得到所述拼接文本;
所述讀取模塊包括:
模型構(gòu)建子模塊,用于構(gòu)建機(jī)器閱讀理解模型;其中,所述機(jī)器閱讀理解模型是利用深度人工神經(jīng)網(wǎng)絡(luò)算法構(gòu)建的用于模擬人閱讀段落的模型,訓(xùn)練所述機(jī)器閱讀理解模型包括:從訓(xùn)練數(shù)據(jù)中查詢對應(yīng)于訓(xùn)練數(shù)據(jù)的問題,得到的答案為所述訓(xùn)練數(shù)據(jù)中最簡潔的連續(xù)文本片段;所述訓(xùn)練數(shù)據(jù)包括中文語料和英文語料;
截取子模塊通過所述機(jī)器閱讀理解模型從所述拼接文本中截取與所述查詢請求相關(guān)的連續(xù)文本片段。
5.根據(jù)權(quán)利要求4所述的信息檢索裝置,其特征在于,所述檢索模塊包括:
排序子模塊,用于根據(jù)所檢索到的網(wǎng)頁中文章與所述查詢請求的相關(guān)度,對各文章進(jìn)行降序排序;
第一選取子模塊,用于從排序結(jié)果中選取與查詢請求相關(guān)度最高的N篇文章,N為預(yù)設(shè)的整數(shù)。
6.根據(jù)權(quán)利要求4所述的信息檢索裝置,其特征在于,所述相似度計算子模塊包括:
相似度模型構(gòu)建單元,用于構(gòu)建查詢請求與段落的相似度計算模型;
計算單元,用于通過所述相似度計算模型計算檢索到的文章的每個段落與所述查詢請求的相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810635964.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





