[發明專利]一種提高問答系統泛化能力的方法有效
| 申請號: | 202011494614.1 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112507097B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 申沖;張漢同;張傳鋒;祖丕國;王太浩;朱錦雷 | 申請(專利權)人: | 神思電子技術股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/31;G06F16/35;G06F16/36;G06F40/211;G06F40/284;G06F40/30;G06K9/62 |
| 代理公司: | 濟南泉城專利商標事務所 37218 | 代理人: | 趙玉鳳 |
| 地址: | 250000 山東省濟南市*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提高 問答 系統 泛化 能力 方法 | ||
1.一種提高問答系統泛化能力的方法,其特征在于:包括以下步驟:
S01)、通過詞嵌入矩陣來獲得相似詞表;
S02)、通過相似問題生成來獲得相似問題列表;
S03)、通過詞向量、句向量來獲得標準詞與相似詞、標準問題與相似問題的相似度;
S04)、基于相似詞表、相似問題列表以及標準詞與相似詞、標準問題與相似問題的相似度對問答系統進行優化,在給定行業問答集的情況下,通過相似詞和相似問題產生的信息擴充倒排索引的容量;針對倒排索引產生的相關問題列表,使用打分算法獲得相關問題的得分,在所有的得分中乘上相似詞、相似問題的權重,經過排序之后即可得到最終的排序結果;相似詞、相似問題的權重就是標準詞與相似詞、標準問題與相似問題的相似度。
2.根據權利要求1所述的提高問答系統泛化能力的方法,其特征在于:通過詞嵌入矩陣來獲得相似詞表的過程為:
S11)、選用開源的詞向量或者訓練詞向量,訓練詞向量時,首先根據行業用戶給定的對話語料使用關鍵詞抽取算法抽取行業關鍵詞,并以行業關鍵詞為種子從網絡中爬取行業弱相關知識,然后使用word2vec技術訓練詞嵌入矩陣;
S12)、獲取行業關鍵詞的相似詞表,根據詞嵌入矩陣,使用高維向量索引技術來構建詞向量索引,并依次遍歷行業關鍵詞表,抽取行業關鍵詞的相似詞。
3.根據權利要求2所述的提高問答系統泛化能力的方法,其特征在于:抽取行業關鍵詞的相似詞時,去除包含標準詞的詞。
4.根據權利要求2所述的提高問答系統泛化能力的方法,其特征在于:使用余弦相似度來計算相似詞與標準詞的相似度并保存,標準詞為抽取的行業關鍵詞;相似詞與標準詞之間的相似度作為相似詞對標準詞的貢獻度,如果用戶問題中包括標準詞,則對該標準詞的貢獻度為1;如果用戶問題中包括相似詞,則對該變準此的貢獻度為其相似度值;基于相似詞以及相似度與標準詞之間的相似度構建行業關鍵詞的相似詞表。
5.根據權利要求1所述的提高問答系統泛化能力的方法,其特征在于:通過相似問題生成來獲得相似問題列表的過程為:
S21)、行業相關問題爬取,依據行業關鍵詞,爬取每個行業關鍵詞的相關問題;
S22)、相似問題對生成,首先使用預訓練模型I來進行句向量的抽取,使用高維向量索引來構建句向量索引,然后依次遍歷所有行業相關問題,從句向量索引中抽取前k個最相似的問題;
S23)、相似問題生成模型的訓練,采用預訓練模型II來進行相似問題生成模型的訓練,輸入訓練集和標簽,訓練集由相似問題和非相似問題對等比例構成,損失函數由2部分組成,一個是相似問題生成產生的損失,另一個是分類任務產生的損失;
S24)、獲取相似問題表,遍歷問題庫中的標準問題,使用預訓練模型II產生相似問題集;采用topk編碼策略,設置模型一次生成n個相似問題,相似問題是逐字生成的,每生成一個字,從前topk個最可能的單詞中,進行隨機采樣,將采樣結果作為n個相似問題的下一個字。
6.根據權利要求5所述的提高問答系統泛化能力的方法,其特征在于:若生成的相似問題與標準問題太過接近,將所有生成的相似問題進行過濾操作;如果相似問題沒有產生新詞,僅僅是變換了標點、停用詞,則過濾掉;相似問題中近似重復出現的問題也過濾掉。
7.根據權利要求5所述的提高問答系統泛化能力的方法,其特征在于:使用相似度來評估標準問題與相似問題之間的偏差,相似問題與標準問題之間的相似度作為相似問題對標準問題的貢獻度,如果用戶問題匹配到標準問題,則對標準問題的貢獻度為1,如果用戶問題匹配到相似問題,則相似問題對標準問題的貢獻度為其相似度值。
8.根據權利要求5所述的提高問答系統泛化能力的方法,其特征在于:所述預訓練模型為bert、roberta、xlnet、albert中的一種。
9.根據權利要求5所述的提高問答系統泛化能力的方法,其特征在于:預訓練模型II為unilm模型。
10.根據權利要求1所述的提高問答系統泛化能力的方法,其特征在于:倒排索引時,在所有的得分乘上相似詞、相似問題的權重的基礎上,再乘上一個權重系數,即為最終的得分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于神思電子技術股份有限公司,未經神思電子技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011494614.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:淺埋暗挖隧道開挖支護體系及施工方法
- 下一篇:一種輪胎花紋檢測裝置及方法





