[發明專利]一種數據交互方法、裝置及存儲介質在審
| 申請號: | 202110180335.6 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN112905768A | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 熊俊杰;張樹誠 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/242;G06F40/295;G06F40/30 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 任默聞;孫乳筍 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 交互 方法 裝置 存儲 介質 | ||
1.一種數據交互方法,其特征在于,所述方法包括:
使用Elasticsearch從預設的答案文檔庫中檢索問題語句,獲得第一答案文檔集;所述第一答案文檔集中包括Elasticsearch返回的排名前n的答案文檔;其中n大于或等于2;
將所述問題語句和所述答案文檔庫中的答案文檔轉換為向量形式,得到問題語句向量和多個答案文檔向量;
計算所述問題語句向量與所述多個答案文檔向量的相似度,獲得第二答案文件集;所述第二答案文檔集中包括相似度排名前m的答案文檔;其中,m大于或等于2;
合并所述第一答案文檔集和所述第二答案文檔集,形成第三答案文檔集;
基于問題語句與答案文檔的相關性對所述第三答案文檔集中的答案文檔打分,選取得分最高的答案文檔作為所述問題語句對應的答案文檔返回給用戶。
2.根據權利要求1所述的方法,其特征在于,將所述問題語句轉換為向量形式,得到問題語句向量包括:
使用語義解析庫對問題語句進行解析,獲得所述問題語句的第一關鍵詞集合;
用目標領域的實體詞典對問題語句進行匹配,獲得所述問題語句的第二關鍵詞集合;
合并所述第一關鍵詞集合和第二關鍵詞集合,得到第三關鍵詞集合;
將第三關鍵詞集合中的關鍵詞轉換為向量形式,得到問題語句向量。
3.根據權利要求2所述的方法,其特征在于,所述合并所述第一關鍵詞集合和第二關鍵詞集合,得到第三關鍵詞集合包括:
在所述第一關鍵詞集合為所述第二關鍵詞集合的子集的情況下,以預設概率刪除所述第一關鍵詞集合,得到得到第三關鍵詞集合。
4.根據權利要求2所述的方法,其特征在于,所述合并所述第一關鍵詞集合和第二關鍵詞集合,得到第三關鍵詞集合包括:
在所述第一關鍵詞集合不為所述第二關鍵詞集合的子集的情況下,將所述第一關鍵詞集合和第二關鍵詞集合的并集作為第三關鍵詞集合。
5.根據權利要求2所述的方法,其特征在于,所述目標領域的實體詞典根據以下方式得到:
獲取預設數量目標領域的語料;
使用自然語言處理技術對所述語料進行識別,得到多個候選詞語;
計算所述多個候選詞語的特征指標;所述特征指標用于表征候選詞語為目標領域詞語的可能性;
基于所述特征指標構建詞語分類模型;所述詞語分類模型用于確定屬于目標領域詞語的候選詞語;
根據所述屬于目標領域詞語的候選詞語對所語料進行切割,基于切割后得到的詞語構建目標領域的實體詞典。
6.根據權利要求5所述的方法,其特征在于,所述特征指標包括tf值、idf值、C-value值、NC-value值、PMI值、左右鄰字熵中的至少一種。
7.根據權利要求1所述的方法,其特征在于,根據預先建立的打分模型基于問題語句與答案文檔的相關性對所述第三答案文檔集中的答案文檔打分;所述打分模型基于預訓練語言模型訓練得到。
8.根據權利要求7所述的方法,其特征在于,所述預訓練語言模型通過訓練得到;訓練所述預訓練語言模型的任務包括:
句子之間的任務采用句子順序預測;
句子內詞語的任務采用動態覆蓋和全詞掩蓋的方式,結合打亂詞語的次序。
9.根據權利要求7所述的方法,其特征在于,所述打分模型根據以下方法訓練得到:
構建預設數量的正樣本和負樣本,得到訓練數據;所述正樣本由問題語句和所述問題語句相應的答案文檔構成;所述負樣本由問題語句和所述問題語句非相應的答案文檔構成;
使用所述訓練數據對預訓練語言模型進行訓練,得到打分模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110180335.6/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





