[發(fā)明專利]用于輸出信息的方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201910718803.3 | 申請(qǐng)日: | 2019-08-05 |
| 公開(公告)號(hào): | CN110427474A | 公開(公告)日: | 2019-11-08 |
| 發(fā)明(設(shè)計(jì))人: | 謝子哲;彭程;羅雪峰;許天涵;王巍巍 | 申請(qǐng)(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332;G06F16/33;G06F16/31;G06F16/901 |
| 代理公司: | 北京英賽嘉華知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達(dá)佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 問題向量 方法和裝置 搜索 幾何關(guān)系 輸出信息 結(jié)果集 查找 向量 繼續(xù)執(zhí)行 結(jié)束條件 輸出結(jié)果 搜索條件 向量距離 問答式 云計(jì)算 構(gòu)建 鏈表 相切 索引 相交 檢索 答案 響應(yīng) 轉(zhuǎn)換 | ||
本公開的實(shí)施例公開了用于輸出信息的方法和裝置。該方法的一具體實(shí)施方式包括:響應(yīng)于接收到問句,將問句轉(zhuǎn)換成問句向量;獲取預(yù)先構(gòu)建的候選問題向量索引;設(shè)置當(dāng)前搜索半徑,并執(zhí)行如下查找步驟:基于當(dāng)前搜索半徑和各鏈表的最長(zhǎng)半徑,確定問句向量和各組候選問題向量的幾何關(guān)系;在幾何關(guān)系為包含、相交或者相切的關(guān)系的候選問題向量組中查找滿足預(yù)定搜索條件的候選問題向量添加到結(jié)果集;如果結(jié)果集滿足預(yù)定結(jié)束條件,則輸出結(jié)果集中與問句向量距離最近的預(yù)定數(shù)目個(gè)候選問題向量對(duì)應(yīng)的答案;否則,增加當(dāng)前搜索半徑,繼續(xù)執(zhí)行上述查找步驟。該實(shí)施方式提高了問答式檢索的準(zhǔn)確性并提高了云計(jì)算的效率。
技術(shù)領(lǐng)域
本公開的實(shí)施例涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及用于輸出信息的方法和裝置。
背景技術(shù)
在機(jī)器人對(duì)話系統(tǒng)中,對(duì)于用戶輸入的查詢語(yǔ)句,需要實(shí)時(shí)的給出語(yǔ)義合理的答案。對(duì)話任務(wù)針對(duì)不同的場(chǎng)景有不同的策略,其中問答式檢索任務(wù)(FAQ,F(xiàn)requently AskedQuestions)是指從一系列候選語(yǔ)句中挑選出跟用戶查詢語(yǔ)句最匹配的候選句,并獲得該候選句對(duì)應(yīng)的答案進(jìn)行回答。
對(duì)于FAQ對(duì)話,系統(tǒng)中需要事先添加一些問答對(duì),即問題和其對(duì)應(yīng)的答案。當(dāng)用戶輸入一句新的語(yǔ)句時(shí),系統(tǒng)需要對(duì)該語(yǔ)句進(jìn)行泛化,從已有的問題中檢索出最匹配的問題,將該問題對(duì)應(yīng)的答案返回給用戶。
現(xiàn)有的FAQ檢索方法主要是通過(guò)將候選問題分詞后存入倒排索引,然后根據(jù)用戶查詢語(yǔ)句從倒排索引中檢索出候選問題。再根據(jù)之前訓(xùn)練出的深度學(xué)習(xí)模型為所有候選問題打分,選出分?jǐn)?shù)最高的問題對(duì)應(yīng)的答案作為最終結(jié)果返回給用戶。
雖然基于倒排索引的檢索速度快,但是由于是基于詞頻進(jìn)行檢索,沒有結(jié)合語(yǔ)義,檢索的召回率不會(huì)太高。其次對(duì)于第二階段用深度學(xué)習(xí)模型進(jìn)行重排序,模型需要大量的訓(xùn)練數(shù)據(jù),雖然使用基于度量學(xué)習(xí)的模型可以大大減少對(duì)標(biāo)注的需求,但對(duì)于一個(gè)特定領(lǐng)域(比如銀行),仍然需要上萬(wàn)條人工標(biāo)注的語(yǔ)句。除此之外,復(fù)雜的模型(例如包含Transformer或者BiLSTM)訓(xùn)練和預(yù)測(cè)的開銷都比較大,不僅影響整個(gè)對(duì)話系統(tǒng)的QPS(Queries Per Second,每秒查詢率),也對(duì)機(jī)器的性能提出了更高的要求,在私有化項(xiàng)目中加大了客服的成本,降低了產(chǎn)品的競(jìng)爭(zhēng)力。
發(fā)明內(nèi)容
本公開的實(shí)施例提出了用于輸出信息的方法和裝置。
第一方面,本公開的實(shí)施例提供了一種用于輸出信息的方法,包括:響應(yīng)于接收到問句,將問句轉(zhuǎn)換成問句向量;獲取預(yù)先構(gòu)建的候選問題向量索引,其中,候選問題向量索引由至少一個(gè)鏈表組成,每個(gè)鏈表包括一組候選問題向量、該鏈表的質(zhì)心和該鏈表的最長(zhǎng)半徑,每組候選問題向量對(duì)應(yīng)一個(gè)答案;設(shè)置當(dāng)前搜索半徑,并執(zhí)行如下查找步驟:基于當(dāng)前搜索半徑和各鏈表的最長(zhǎng)半徑,確定問句向量和各組候選問題向量的幾何關(guān)系;在幾何關(guān)系為包含、相交或者相切的關(guān)系的候選問題向量組中查找滿足預(yù)定搜索條件的候選問題向量添加到結(jié)果集;如果結(jié)果集滿足預(yù)定結(jié)束條件,則輸出結(jié)果集中與問句向量距離最近的預(yù)定數(shù)目個(gè)候選問題向量對(duì)應(yīng)的答案;否則,增加當(dāng)前搜索半徑,繼續(xù)執(zhí)行上述查找步驟。
在一些實(shí)施例中,確定問句向量和各組候選問題向量的幾何關(guān)系,包括:分別計(jì)算問句向量到各鏈表的質(zhì)心的距離;對(duì)于至少一個(gè)鏈表中的鏈表,若問句向量到該鏈表的質(zhì)心的距離小于該鏈表的最長(zhǎng)半徑,則該鏈表中的候選問題向量包含問句向量;若問句向量到該鏈表的質(zhì)心的距離小于該鏈表的最長(zhǎng)半徑與當(dāng)前搜索半徑之和,則該鏈表中的候選問題向量與問句向量相交;若問句向量到該鏈表的質(zhì)心的距離等于該鏈表的最長(zhǎng)半徑與當(dāng)前搜索半徑之和,則該鏈表中的候選問題向量與問句向量相切;若問句向量到該鏈表的質(zhì)心的距離不滿足上述包含、相交或相切的條件,則該鏈表中的候選問題向量與問句向量相離。
在一些實(shí)施例中,在幾何關(guān)系為包含、相交或者相切的關(guān)系的候選問題向量組中查找滿足預(yù)定搜索條件的候選問題向量添加到結(jié)果集,包括:對(duì)于幾何關(guān)系為包含、相交或者相切的關(guān)系的鏈表,從該鏈表中查找與該鏈表的質(zhì)心的距離大于等于問句向量到該鏈表的質(zhì)心的距離和當(dāng)前搜索半徑之差的候選問題向量添加到結(jié)果集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910718803.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于詞向量的問題路由方法
- 基于機(jī)器閱讀理解的智能對(duì)話方法、裝置、終端
- 自動(dòng)問答方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種應(yīng)答方法及裝置
- 問題生成方法、裝置、設(shè)備、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 智能問答方法、電子裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 問答匹配和搜索方法、設(shè)備、系統(tǒng)及存儲(chǔ)介質(zhì)
- 一種實(shí)體提取方法、裝置及可讀存儲(chǔ)介質(zhì)
- 語(yǔ)料識(shí)別方法及裝置、電子設(shè)備、存儲(chǔ)介質(zhì)
- 一種問題生成方法、裝置及存儲(chǔ)介質(zhì)
- 成像幾何關(guān)系
- 編碼方法和設(shè)備、解碼方法和設(shè)備以及印刷方法
- 用于建筑算量領(lǐng)域的三維布爾計(jì)算方法
- 對(duì)幾何關(guān)系內(nèi)的冗余的識(shí)別和管理
- 一種基于多視點(diǎn)圖像三維建模的點(diǎn)云幾何數(shù)據(jù)的自動(dòng)拼接算法
- 一種三維模型擬合方法、裝置、計(jì)算機(jī)設(shè)備及介質(zhì)
- 一種考慮變形誤差的接觸關(guān)系模型和裝配誤差計(jì)算方法
- 屏下指紋圖像的處理方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)處理方法和數(shù)據(jù)處理系統(tǒng)
- 一種基于構(gòu)件復(fù)用與重裝配的信息模型幾何輕量化方法





