[發明專利]基于多視角注意力機制的深度文本排序方法有效
| 申請號: | 202010824405.2 | 申請日: | 2020-08-17 |
| 公開(公告)號: | CN112115253B | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 李明磊;洪馮;王穎;陳宇翔;徐治緯;張記強 | 申請(專利權)人: | 北京計算機技術及應用研究所 |
| 主分類號: | G06F16/338 | 分類號: | G06F16/338;G06N3/04;G06N3/08 |
| 代理公司: | 中國兵器工業集團公司專利中心 11011 | 代理人: | 張然 |
| 地址: | 100854*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 視角 注意力 機制 深度 文本 排序 方法 | ||
1.一種基于多視角注意力機制的深度文本排序方法,其特征在于,包括:
輸入層,用于輸入網絡模型中的數據;
編碼層使用雙向長短期記憶網絡分別編碼查詢和文本中單詞的上下文特征,在雙向長短期記憶網絡中包括前向LSTM和后向LSTM;
內部交互層,用來建模文本中不同單詞的重要程度,對重要程度不同的單詞給予不同的權重,采用自注意力機制建模查詢與文本各自內部的重要語義信息;
外部交互層,用來建模查詢與文本之間的交互相關性,采用雙向注意力機制來捕獲查詢與文本交互過程中的匹配模式;
輸出層,將外部交互層的輸出作為輸入,輸出查詢與文本的相關性分數作為排序依據;
輸入網絡模型中的數據,包括查詢和文本,定義Q=[q1,q2,q3,...,qn]表示查詢集合,D={d1,d2,d3,...,dm}表示文本集合,表示查詢中的單詞,表示文本中的單詞,輸入層將查詢與文本中的每個單詞分別映射到K維向量空間,如式(1)以及式(2)所示:
其中,embedding(·)表示使用V維預訓練詞向量GloVe模型通過一個嵌入矩陣將單詞和編碼為向量,分別得到查詢與文本中每個單詞對應的詞向量和
2.如權利要求1所述的基于多視角注意力機制的深度文本排序方法,其特征在于,
編碼層對于查詢,以查詢詞向量作為輸入,經過前向LSTM網絡編碼后,得到W維查詢上下文特征向量表示如下:
其中,式(3)表示使用前向LSTM對上層輸出的查詢的詞向量進行編碼,式(4)表示使用后向LSTM對上層輸出的查詢的詞向量進行編碼,式(5)表示對查詢的前向上下文向量和后向的上下文向量進行拼接;
經過該編碼層的編碼后,得到的查詢上下文向量表示包括:
對于文本,該編碼層以文本詞向量作為輸入,經過后向LSTM網絡編碼后,得到的文本上下文特征向量表示如下:
其中,式(7)表示使用前向LSTM對上層輸出的文本的詞向量進行編碼,式(8)表示使用后向LSTM對上層輸出的文本的詞向量進行編碼,式(9)表示對文本的前向上下文向量和后向的上下文向量進行拼接;
經過該編碼層的編碼后,得到的文本上下文向量表示如下:
3.如權利要求2所述的基于多視角注意力機制的深度文本排序方法,其特征在于,
內部交互層對于查詢,給定編碼層的輸出作為輸入,通過內部交互層后得到查詢中每個單詞的向量權重,表示如下:
其中,表示向量的權重,Wq為權重矩陣,wq為向量的參數;
經過內部交互層后產生的查詢向量表示如下:
對于文本,給定編碼層的輸出作為輸入,通過內部交互層后得到的文本中每個單詞的向量表示如下:
其中,表示向量的權重,Wd為權重矩陣,wd為向量參數,
經過內部交互層后產生的文本向量表示如下:
4.如權利要求3所述的基于多視角注意力機制的深度文本排序方法,其特征在于,外部交互層通過Query2Doc注意力機制用來捕獲文本中哪些單詞與查詢中的單詞有最高的相似度,將這些單詞給予更高的權重,對于Query2Doc注意力,給定xq作為輸入,輸出的計算表示如式(17)以及式(18)所示:
其中,表示Query2Doc注意力機制中的權重矩陣,表示偏置項,yq為由Query2Doc注意力機制產生的交互向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京計算機技術及應用研究所,未經北京計算機技術及應用研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010824405.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于深度學習的數字病理圖像智能分析方法
- 下一篇:一種雙電機驅動擠出機





