[發明專利]問答檢索方法、裝置、設備及存儲介質在審
| 申請號: | 202210975632.4 | 申請日: | 2022-08-15 |
| 公開(公告)號: | CN115757705A | 公開(公告)日: | 2023-03-07 |
| 發明(設計)人: | 張景瑞;劉衛強;孔令磊;李敏;曾誰飛 | 申請(專利權)人: | 青島海爾電冰箱有限公司;海爾智家股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33 |
| 代理公司: | 蘇州威世朋知識產權代理事務所(普通合伙) 32235 | 代理人: | 郜商羽 |
| 地址: | 266101 山東省*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 問答 檢索 方法 裝置 設備 存儲 介質 | ||
本發明提供一種問答檢索方法、裝置、設備及存儲介質,所述問答檢索方法通過對問題文本分詞序列、特征序列和混合序列的綜合應用,第一,將應用領域知識和語言知識融入到了問題文本的結構解析中,從而使得計算結果能夠更加符合業務人員的預期。第二,通過利用特征序列,可以對語料庫中的訓練語料去重,降低了特征的具體值變化對計算結果的影響,一方面提高了計算的準確度,另一方面降低了對語料庫中語料變化量的要求,降低了語料庫維護的工作量和難度。第三,通過語序權重的計算與加成,在余弦相似度的基礎上增加了語序因素,提高了計算和排序結果的準確性,提升了整體檢索效果。
技術領域
本發明涉及計算機技術領域,具體地涉及一種問答檢索方法、裝置、設備及存儲介質。
背景技術
檢索式問答是一種實現對話系統的路徑,在這種路徑下,開發者會先構建一定規模由問題和答案對(或分類)構成的語料庫,當用戶發起一個提問時,系統會從構建好的語料庫中,經過一系列算法選出一個與用戶提問最為相似的問題來,并把該問題對應答案或分類輸出出去,從而實現問答效果。但現有的檢索式問句查找中方法存在與領域知識不夠緊密、所需語料庫太大、語料收集成本太高的問題。
發明內容
本發明的目的在于提供一種問答檢索方法、裝置、設備及存儲介質。
本發明提供一種問答檢索方法,包括模型訓練過程和模型應用過程,所述模型訓練過程包括步驟:
對語料庫中訓練問題文本進行分詞處理,得到訓練問題文本分詞序列,通過規則模型對所述訓練問題文本進行特征提取,得到訓練問題文本特征序列,將所述特征序列的空字符串填補所述分詞序列對應位置處的詞語進行混合處理,得到混合序列;
所述模型應用過程包括步驟:
獲取用戶輸入的用戶問題,將所述用戶問題文本進行分詞處理并通過所述規則模型進行特征提取,得到其分詞序列和特征序列,并將兩者進行混合處理得到其混合序列;
查找和所述用戶問題文本具有相同特征的所述訓練問題文本,作為候選問題文本;
分別將每個所述候選問題文本與所述用戶問題文本比較,選擇兩者間混合序列中元素數量較少者為短混合序列、較長者為長混合序列,基于兩混合序列中元素排列順序,計算所述短混合序列所包含的元素能投射到長混合序列中的個數,得到兩者的有序重疊數,基于所述有序重疊數分別計算每個所述候選問題文本和所述用戶問題文本的語序權重值;
將特征序列作為輸入項,分別計算每個所述候選問題文本和所述用戶問題文本之間的相似值;
基于所述語序權重值和所述相似值計算所述候選問題文本和所述用戶問題文本的綜合相似值,根據所述綜合相似值,選擇最優候選問題文本輸出。
作為本發明的進一步改進,所述通過規則模型對所述訓練問題文本進行特征提取,得到訓練問題文本特征序列,具體包括:
判斷所述訓練問題文本所屬領域,通過規則模型對所述訓練問題文本進行特征提取,得到訓練問題文本特征序列,其中,所述特征包括:
實體類名詞,其為預設的所述領域所涉及的具象實體;
事件類動詞,其為預設的所述領域所涉及的用戶可能性動作行為;
功能詞,其為語言學意義上的功能詞;
標志詞,其為語言學意義上的句義標志詞。
作為本發明的進一步改進,所述模型訓練過程還包括步驟:
從所述訓練問題文本特征序列中提取其必要特征序列,所述必要特征序列包括預設的判斷所述用戶問題與所述訓練問題相似時所需包含的特征。
作為本發明的進一步改進,所述模型應用過程還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島海爾電冰箱有限公司;海爾智家股份有限公司,未經青島海爾電冰箱有限公司;海爾智家股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210975632.4/2.html,轉載請聲明來源鉆瓜專利網。





