[發明專利]鍵值記憶網絡在審
| 申請號: | 201880048452.3 | 申請日: | 2018-06-07 |
| 公開(公告)號: | CN110945500A | 公開(公告)日: | 2020-03-31 |
| 發明(設計)人: | 亞歷山大·霍頓·米勒;亞當·約書亞·費什;杰西·迪恩·道奇;阿米爾-侯賽因·卡里米;安托萬·博爾德;詹森·E·韋斯頓 | 申請(專利權)人: | 臉譜公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 周靖;楊明釗 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 鍵值 記憶 網絡 | ||
1.一種方法,所述方法包括由計算設備:
接收輸入;
生成表示所述輸入的第一查詢向量表示;
生成與鍵值記憶集合相關聯的第一相關性度量,每個鍵值記憶具有相關聯的鍵和相關聯的值,其中,基于所述第一查詢向量表示與鍵向量表示之間的比較來生成所述第一相關性度量,所述鍵向量表示用于表示與所述鍵值記憶集合相關聯的鍵;
基于(1)所述鍵值記憶集合的第一相關性度量和(2)表示與所述鍵值記憶集合相關聯的值的值向量表示,生成第一聚合結果;
通過迭代過程,使用最終查詢向量表示來生成最終聚合結果,其中,所述迭代過程中的初始迭代包括:
基于所述第一查詢向量表示、所述第一聚合結果和第一機器學習模型來生成第二查詢向量表示;
使用所述第二查詢向量表示來生成與所述鍵值記憶集合相關聯的第二相關性度量;以及
使用所述第二相關性度量來生成第二聚合結果;
基于所述最終聚合結果和所述最終查詢向量表示來生成組合特征表示;以及
響應于所述輸入,基于所述組合特征表示與候選輸出集合之間的比較來選擇輸出。
2.根據權利要求1所述的方法,其中,在所述初始迭代之后,所述迭代過程的每個后續迭代包括:
基于(1)在前一次迭代中生成的前一次迭代查詢向量表示、(2)在所述前一次迭代中生成的前一次迭代聚合結果和(3)當前迭代機器學習模型,生成當前迭代查詢向量表示;
通過比較所述當前迭代查詢向量表示和所述鍵向量表示來生成當前迭代相關性度量;以及
基于所述當前迭代相關性度量和所述值向量表示來生成當前迭代聚合結果。
3.根據權利要求2所述的方法,
其中,使用訓練樣本集合來訓練所述第一機器學習模型和所述迭代過程中每個后續迭代的當前迭代機器學習模型,每個訓練樣本包括訓練輸入和目標輸出。
4.根據權利要求1所述的方法,其中,所述輸入是問題并且所述輸出是所述問題的答案。
5.根據權利要求1所述的方法,還包括:
基于所述輸入來選擇所述鍵值記憶集合。
6.根據權利要求1所述的方法,其中,所述第一查詢向量表示、所述鍵向量表示和所述值向量表示中的每一個都是嵌入。
7.根據權利要求1所述的方法,
其中,使用第二機器學習模型和所述輸入來生成所述第一查詢向量表示;
其中,使用所述第二機器學習模型和相關聯的鍵來生成所述鍵向量表示中的每一個;并且
其中,使用所述第二機器學習模型和相關聯的值來生成所述值向量表示中的每一個。
8.根據權利要求7所述的方法,
其中,使用訓練樣本集合來迭代地訓練所述第一機器學習模型和所述第二機器學習模型,每個訓練樣本包括訓練輸入和目標輸出;
其中,對于所述訓練樣本集合中的每個訓練樣本,基于(1)響應于該訓練樣本的訓練輸入而選擇的訓練輸出與(2)該訓練樣本的目標輸出之間的比較,更新所述第一機器學習模型和所述第二機器學習模型。
9.根據權利要求7所述的方法,其中,所述第一機器學習模型或所述第二機器學習模型是使用機器學習算法生成的矩陣。
10.根據權利要求1所述的方法,其中,所述鍵值記憶集合中的每個鍵值記憶的第一相關性度量是概率。
11.根據權利要求1所述的方法,其中,所述第一聚合結果是所述值向量表示的加權和,所述值向量表示以它們各自相關聯的第一相關性度量進行加權。
12.根據權利要求1所述的方法,其中,所述候選輸出集合中的每一個候選輸出是使用第二機器學習模型生成的、相關聯的候選文本輸出的向量表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于臉譜公司,未經臉譜公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880048452.3/1.html,轉載請聲明來源鉆瓜專利網。





