[發明專利]一種用于業務機器人問答系統的相似文本檢索方法有效
| 申請號: | 202011162081.7 | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112328757B | 公開(公告)日: | 2022-05-03 |
| 發明(設計)人: | 甘濤;李春昂;何艷敏;陳俞舟 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 電子科技大學專利中心 51203 | 代理人: | 甘茂 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 業務 機器人 問答 系統 相似 文本 檢索 方法 | ||
本發明屬于信息檢索領域,提供一種用于業務機器人問答系統的相似文本檢索方法,該方法實現了快速、精準的相似文本檢索,較好地解決了檢索速度和檢索精度的矛盾問題。在檢索速度方面,采用粗略和精細兩級檢索策略,大大減少了相似度計算的次數,提高了檢索速度;同時,在檢索精度方面,通過在一級粗略檢索前對用戶問題文本進行近義詞歸一操作,提高了傳統快速檢索方法的檢索范圍,在二級神經網絡精細檢索之后,通過對檢索出的候選問題文本進行專業打分,并最終將檢索得分、匹配得分和專業得分三者進行綜合評分,有效地提高了神經網絡檢索方法的檢索精度。
技術領域
本發明屬于信息檢索領域,具體涉及一種用于業務機器人問答系統的相似文本檢索方法。
背景技術
問答系統是信息檢索系統的一種高級形式,它能用準確、簡潔的自然語言回答用戶用自然語言提出的問題。一個問答系統一般包括問題分析、信息檢索和答案抽取三個組成部分。其中,信息檢索的一種主要方法是相似文本檢索,即根據用戶詢問的問題,從文本庫中檢索得到與用戶問題語義相近的候選相似問題文本。
相似文本檢索方法主要有基于規則、基于關鍵詞索引和基于神經網絡等方法。早期的相似文本檢索主要是基于規則的,當用戶問題文本命中事先定義好的規則時,該方法能夠準確快速地返回檢索結果。但由于自然語言的復雜性,規則庫難以覆蓋真實情景中很多情況。基于關鍵詞索引方法是信息檢索的主流方法,它通過對表征用戶問題文本主題內容的關鍵詞進行索引來實現信息檢索,其典型代表有Elasticsearch(簡稱ES)。該類方法能在大規模文本庫上實現快速檢索,但由于這類方法僅依賴于表面文字信息而忽略了上下文語義特征,其檢索精度往往不高。相比之下,近年來基于神經網絡的方法在檢索精度方面有顯著改善,利用訓練好的神經網絡模型,該類方法可以捕捉文本的語義信息,從而較為準確地估計出文本間的相似程度。但對于問答系統的應用,基于神經網絡的相似文本檢索方法面臨如下問題:(1)檢索的精度非常依賴于標注訓練樣本的數量,當訓練樣本較少時,精度明顯下降;(2)神經網絡的一次推演只能預測一對文本的語義相似度(語義匹配程度),而在問答系統中,一次問答需要將用戶問題與文本庫中大量的候選問題一一進行相似度預測,即需要進行大量的神經網絡推演計算,故檢索速度往往難以達到要求。因此,對于問答系統而言,當前相似文本檢索方法需要同時解決好檢索精度和檢索速度的問題。
發明內容
本發明的目的在于針對上述現有技術的不足,提供一種用于業務機器人問答系統的相似文本檢索方法,有效提升相似文本檢索的速度和精度。
為了達到上述目的,本發明采用的技術方案為:
一種用于業務機器人問答系統的相似文本檢索方法,包括模型構建和相似文本檢索兩個階段,其特征在于;
所述模型構建包括以下步驟:
A1.創建近義詞哈希表ST;
A1-1.初始化:初始化近義詞哈希表ST為空;
A1-2.獲取近義詞:從開放的中文近義詞庫中獲取多組近義詞;
A1-3.近義詞入庫:對獲取的每一組近義詞,作:
A1-3-1.初始化非標準詞集合Z為空;
A1-3-2.確定標準詞:設當前一組近義詞中有NJ個近義詞,找出其中所含字的數目最多的詞,將其作為標準詞、記為s,若有多個詞所含字的數目相同且該數目的值為最大、則選擇其中任意一個詞;將除標準詞之外的其他詞加入到非標準詞集合Z中,記Z={z1,z2,...,zNJ-1},其中,zj為非標準詞集合Z中的第j個詞,j=1,2,...,NJ-1;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011162081.7/2.html,轉載請聲明來源鉆瓜專利網。





