[發(fā)明專利]一種文本匹配方法、裝置及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202210917686.5 | 申請日: | 2022-08-01 |
| 公開(公告)號: | CN115858722A | 公開(公告)日: | 2023-03-28 |
| 發(fā)明(設(shè)計)人: | 賈敬伍;趙國慶;周長安 | 申請(專利權(quán))人: | 北京中關(guān)村科金技術(shù)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F40/194;G06F40/279;G06F40/242 |
| 代理公司: | 北京萬思博知識產(chǎn)權(quán)代理有限公司 11694 | 代理人: | 秦賀余;孫黎生 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 匹配 方法 裝置 存儲 介質(zhì) | ||
本發(fā)明公開了一種文本匹配方法、裝置及存儲介質(zhì),所述方法包括:根據(jù)獲取目標識別文本,并基于預(yù)設(shè)實體識別模型進行實體識別,獲取實體識別結(jié)果;基于實體識別結(jié)果中的實體詞進行召回,獲取至少一個候選項文本;分別計算每個候選項文本和所述目標識別文本的文本相似度;基于文本相似度進行文本匹配,返回針對于所述目標識別文本的響應(yīng)信息。本發(fā)明基于實體識別模型獲取實體詞,并通過同義詞詞典進行實體詞的擴充,能夠擴大檢索詞的覆蓋范圍,有效地召回候選項文本,通過對候選項文本進行進一步篩選,可以縮短相似度計算時間,提高響應(yīng)的時效性,但不需要增加硬件成本,能夠?qū)崿F(xiàn)高效準確地進行文本匹配,提升用戶的滿意度,增強用戶的體驗感受。
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,并且更具體地,涉及一種文本匹配方法、裝置及存儲介質(zhì)。
背景技術(shù)
檢索式對話系統(tǒng)是對話系統(tǒng)領(lǐng)域中最為經(jīng)典的一種解決方案,需要利用用戶語句從已有語料中召回候選項,實現(xiàn)文本匹配,然后再根據(jù)匹配結(jié)果返回對應(yīng)回答。
基于檢索式的對話系統(tǒng)進行文本召回時,通常會涉及倒排索引技術(shù),需要利用數(shù)據(jù)庫中的大量語料構(gòu)建出倒排索引表。基于詞的倒排索引表,由于詞表的數(shù)量越大,召回的時效性就越差,會影響在線服務(wù)的用戶體驗;另外,因受分詞效果、泛化能力等因素影響,傳統(tǒng)的召回流程并不能有效地從數(shù)據(jù)庫中篩選出合適的語料。
現(xiàn)有技術(shù)中基于ES(ElasticSearch)工具的文本匹配方法實現(xiàn)的方案包括:1)將語料存入ES數(shù)據(jù)庫;2)結(jié)合用戶語句query,利用字或詞的粒度,對候選項文本進行召回;3)利用文本相似度算法進行排序,例如:余弦相似度,將計算用戶語句與候選項之間的文本相似度;4)按照文本相似度數(shù)值對候選項進行降序排列,返回排序結(jié)果。其缺點為:1)使用ES僅能針對確定的字、詞進行召回,無法對用戶語句中的關(guān)鍵字詞進行泛化;2)利用ES召回的候選項,可能過于繁多,對下一步精排的時效性造成一定壓力。
因此,需要一種文本匹配方法,以優(yōu)化流程。
發(fā)明內(nèi)容
為了解決上述諸如使用ES僅能針對確定的字、詞進行召回,無法對用戶語句中的關(guān)鍵字詞進行泛化,以及利用ES召回的候選項,可能過于繁多,對下一步精排的時效性造成一定壓力的技術(shù)問題,提出了本發(fā)明。本發(fā)明的實施例提供了一種文本匹配方法、裝置及存儲介質(zhì)。
根據(jù)本發(fā)明實施例的另一個方面,提供了一種文本匹配方法,所述方法包括:
獲取目標識別文本,并基于預(yù)設(shè)實體識別模型進行實體識別,獲取實體識別結(jié)果;
基于所述實體識別結(jié)果中的實體詞進行召回,獲取至少一個候選項文本;
分別計算每個候選項文本和所述目標識別文本的文本相似度;
基于所述文本相似度進行文本匹配,返回針對于所述目標識別文本的響應(yīng)信息。
可選地,其中所述方法還包括:
在基于所述實體識別結(jié)果中的實體詞進行召回,獲取候選項文本之前,對于所述實體識別結(jié)果中的任一個實體詞,基于預(yù)設(shè)同義詞詞典進行所述任一個實體詞的擴充,并將擴充得到的實體詞存儲于所述實體識別結(jié)果中;
其中,所述預(yù)設(shè)同義詞詞典基于歷史語料中的用戶語句構(gòu)建。
可選地,其中所述基于所述實體識別結(jié)果中的實體詞進行召回,獲取候選項文本,包括:
將所述實體識別結(jié)果中的實體詞作為檢索詞,并基于預(yù)設(shè)倒排索引表,按照檢索詞的粒度進行候選項文本的召回,獲取候選項文本;
其中,所述預(yù)設(shè)倒排索引表基于歷史語料中的用戶語句數(shù)據(jù)構(gòu)建。
可選地,其中所述方法還包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京中關(guān)村科金技術(shù)有限公司,未經(jīng)北京中關(guān)村科金技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210917686.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





