[發(fā)明專利]一種提高問答系統(tǒng)泛化能力的方法有效
| 申請?zhí)枺?/td> | 202011494614.1 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112507097B | 公開(公告)日: | 2022-11-18 |
| 發(fā)明(設計)人: | 申沖;張漢同;張傳鋒;祖丕國;王太浩;朱錦雷 | 申請(專利權)人: | 神思電子技術股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/31;G06F16/35;G06F16/36;G06F40/211;G06F40/284;G06F40/30;G06K9/62 |
| 代理公司: | 濟南泉城專利商標事務所 37218 | 代理人: | 趙玉鳳 |
| 地址: | 250000 山東省濟南市*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提高 問答 系統(tǒng) 泛化 能力 方法 | ||
本發(fā)明提出了一種可以自動提高系統(tǒng)泛化能力、提高系統(tǒng)召回能力的方法,通過使用相似詞和相似問題自動生成技術,從詞和句子兩個粒度來改善問答系統(tǒng)中的檢索與排序,提高系統(tǒng)召回率,增強系統(tǒng)泛化能力,盡可能避免人工參與,極大的提高了系統(tǒng)的易用性。
技術領域
本發(fā)明涉及自然語言處理和機器學習領域,具體是一種提高問答體現(xiàn)泛化能力的方法。
背景技術
從用戶體驗角度來看,目前業(yè)界現(xiàn)有的業(yè)務咨詢問答系統(tǒng),主要有2類問答模式:一類是問答型,即針對用戶的每個有效問題,都會給出一個明確的回復或答案;另一類則是搜索型,針對用戶問題,返回一個相似的問題列表。
兩種問答模型都依賴一個問答庫,即問題-答案集合,當系統(tǒng)接收到用戶問題時,都需要從問答庫中檢索出相關的問題列表然后進行排序,搜索型問答系統(tǒng)直接返回若干相關的問題列表,而問答型系統(tǒng)則在此基礎之上加了一個判斷機制,判斷該用戶問題是否有準確答案。
由此可見,不論哪一種業(yè)務咨詢問答系統(tǒng),都需要針對用戶的問題對庫中的知識進行檢索、排序。檢索是所有問答系統(tǒng)中的第一步,排序算法是對檢索結果的排序。從某種程度上來說,檢索系統(tǒng)的準確率直接決定了整個問答系統(tǒng)的準確率。
給定一個問題集和用戶問題,如何篩選出相關問題呢,考慮到時效性,目前應用較多的是倒排索引,通過構建詞與問題的索引,來快速篩選出相關的問題列表,然后經過排序算法進行排序返回。
但是這種方法只能在已有知識(問答庫)中構建索引,或者說,只能對問答庫中已有的分詞構建倒排索引,如果用戶的問題中含有問答庫中不包括的分詞,倒排索引是檢索不出來的,即僅僅使用倒排索引無法解決各類的口語泛化問題。很明顯,倒排索引本身不具有泛化能力。舉個例子,假設問答庫中有個問題是“水費無法繳納的原因”,用戶問題為“水費為啥不能交”,系統(tǒng)是無法將“無法-不能”、“原因-為啥”、“繳納-交”來對應起來的。
傳統(tǒng)方法是基于規(guī)則、模板等人工方式來進行相似詞表、相似問題表的構建(如專利CN201810768888.1、CN201911081549.7 等),這種方法耗時耗力且不易維護。
發(fā)明內容
針對現(xiàn)有技術的缺陷,本發(fā)明提高一種提高問答系統(tǒng)泛化能力的方法,通過詞向量檢索相似詞和相似問題生成兩種方式來改進問答系統(tǒng)中的檢索與排序,本發(fā)明提出的方法則不需要人工的介入,完全依賴深度學習技術自動完成,在提高系統(tǒng)泛化能力的同時,極大減少人工成本。
為了解決所述技術問題,本發(fā)明采用的技術方案是:通過詞嵌入矩陣來獲得相似詞表;通過相似問題生成來獲得相似問題列表;通過詞向量、句向量來獲得標準差與相似詞、標準問題與相似問題的相似度;通過上述結果來改善系統(tǒng)的檢索、排序效果。該方案包括以下步驟:
(1)訓練詞向量。直接使用開源的詞向量或者自己訓練,這由可獲得的行業(yè)數據量的多少來決定。如果自己訓練的話,首先需要根據行業(yè)用戶給定的對話語料,首先通過tf-idf技術抽取行業(yè)關鍵詞;依據行業(yè)關鍵詞,從百度咨詢、百度知道、百度百科中爬取大量的行業(yè)弱相關知識(因為關鍵詞是自動抽取的,可能與具體行業(yè)關聯(lián)并沒有那么緊密,所以依據關鍵詞爬取的知識,并非全部是與行業(yè)相關的,如“辦理”,金融行業(yè)、稅務行業(yè)都有該業(yè)務類型),并依此使用word2vec技術訓練詞嵌入矩陣。
(2)抽取相似詞表。依據詞嵌入矩陣,使用高維向量相似度快速索引技術(目前比較成熟的技術由kd樹、Annoy、Faiss等)來構建詞向量索引,依此可以快速抽取行業(yè)關鍵詞的相似詞,然后使用余弦相似度來計算詞與詞之間的相似度并保存。
(3)獲取相似問題生成訓練語料。從第一步中,通過行業(yè)關鍵詞從百度知道中獲得了大量的問答對(使用1000個關鍵詞即可爬取百萬左右的問答對,但需要借助代理ip技術),然后使用預訓練模型I(使用roberta-large效果較好,也可使用其他預訓練模型)獲取所有問題的向量表示,同第二步一樣,使用高維向量索引技術來進行問題的聚類,依次構建大量的相似問題對。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于神思電子技術股份有限公司,未經神思電子技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011494614.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:淺埋暗挖隧道開挖支護體系及施工方法
- 下一篇:一種輪胎花紋檢測裝置及方法





