[發明專利]一種基于主題感知的跨模態序列到序列生成方法有效
| 申請號: | 202011241616.X | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112507064B | 公開(公告)日: | 2022-05-24 |
| 發明(設計)人: | 王旭強;張旭;鄭陽;楊青 | 申請(專利權)人: | 國網天津市電力公司;國家電網有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/30;G06N3/04;G06N3/08;G06N5/04 |
| 代理公司: | 天津創智天誠知識產權代理事務所(普通合伙) 12214 | 代理人: | 陳昌娟 |
| 地址: | 300010*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主題 感知 跨模態 序列 生成 方法 | ||
1.一種基于主題感知的跨模態序列到序列生成方法,包括按順序執行的下列步驟:
S1,數據記錄編碼:利用雙向長短期記憶網絡學習數據表中的每個記錄的上下文語義表示,得到數據記錄的隱藏向量表示序列;
S2,主題編碼:根據數據表標題與數據表對應的文本學習各主題對應的詞分布,并通過對詞的向量表示加權求和,得到主題的向量表示;
S3,文本解碼:基于步驟S1得到的隱藏向量表示序列以及步驟S2中得到的主題的向量表示,使用基于注意力機制的LSTM結構作為解碼器生成分析性文本,
S4模型訓練,構建損失函數,對S1到S3中的模型參數進行優化;
S5文本生成:在推理過程中,對于給定的數據表,利用集束搜索來近似地得到最佳的文本生成結果;
其中,步驟S1所述的數據記錄編碼包括以下步驟:
S1-1,將數據表中每個數據記錄對應的行、列、值三個屬性均映射到低維、稠密的向量表示:
對于給定的數據表s,假設為數據表的記錄集合,|r|表示記錄個數,將數據表中每條記錄rj對應的行、列、值三個屬性和分別映射到低維、稠密的向量表示和其中dr為數據表中的記錄所對應的向量表示的維度;
S1-2,根據數據集中數值的分布情況將所有數值劃分為不同的區間,并依據每個數據記錄中數值所屬的區間對其進行記錄的數值編碼:
首先根據數據集中數值的分布情況將所有數值劃分為不同的區間,并使得不同的區間對應不同的參數設置;在數值編碼時,首先根據對應的區間范圍選擇參數和隨后將的具體數值輸入到線性變換層得到指示向量并通過該指示向量對量化單元的嵌入矩陣進行加權求和得到數值特征表示,具體計算過程如下:
式中,為量化單元的嵌入矩陣,M為量化單元個數,dq為數值特征的維度;
S1-3,將每個記錄對應的三個屬性的向量表示以及數據編碼的表示進行拼接,作為每個數據記錄的初始表示:
將每個記錄對應的三個屬性的向量表示和以及數值特征表示進行拼接,作為每個數據記錄的初始表示aj:
S1-4,基于數據記錄的初始向量表示序列A={a1,a2,…,a|r|},利用雙向長短期記憶網絡BLSTM對數據記錄初始表示進行編碼,得到數據記錄對應的隱藏向量表示序列H={h1,h2,…,h|r|},對初始向量表示序列A中第j個記錄進行編碼的計算方法如下:
其中,hj為第j個記錄對應的上下文語義表示;
步驟S2所述的主題編碼包括以下步驟:
S2-1,將標題相同的數據表對應的文本進行聚合,并對其中出現的詞進行統計,構建主題-詞的共現矩陣:
所述數據表的主題由數據表的標題st標記,首先將標題相同的數據表對應的文本進行聚合,并對其中出現的詞進行統計,構建主題-詞的共現矩陣其中L代表主題個數,|D|代表由數據集中全部詞構成的詞表的大小,矩陣元素Uim代表第i種主題對應的第m個詞的特征值;
S2-2,根據共現矩陣,選擇每個主題下的高頻主題詞表,并將每個主題下高頻詞的詞向量進行平均,作為該主題的特征表示:
根據共現矩陣選出每個主題下的高頻主題詞表其中Lt代表高頻詞詞表的大小,將每個主題下高頻詞的詞向量進行平均,作為該主題的特征表示:
式中,zi為第i個主題的特征表示,為第i個主題對應的高頻主題詞表中第l個詞對應的預訓練詞向量,由此得到的主題特征集Z={z1,z2,…,zL};
S2-3,對于給定的數據表標題st,根據查表法從主題特征集合中選擇對應的主題表示zs,并在解碼層引入該主題表示,以指導生成過程中詞項的選擇,獲得更好的生成結果;
步驟S3所述的文本解碼包括以下步驟:
S3-1,在解碼過程的每個時間步,采用LSTM結構解碼生成詞的隱藏表示,LSTM接收上一步預測的詞對應的詞向量以及解碼器上一步的隱藏表示作為輸入,解碼得到當前時間步的隱藏表示:
在解碼過程的第t個時間步,LSTM單元的接收上一步預測的詞對應的詞向量yt-1以及解碼器上一步的隱藏表示dt-1作為輸入,解碼得到當前時間步的隱藏表示dt:
dt=LSTMdec(yt-1,dt-1) (8)
在第1個時間步中,將y0初始化為全零向量,并將編碼器中前向LSTM的最后一個隱藏表示與反向LSTM的最后一個隱藏表示進行拼接作為d0:
S3-2,在文本解碼的過程中引入注意力機制,使解碼過程關注到原始數據表中的重要信息:
給定第t個時間步解碼器的隱藏表示dt,以及每個數據記錄的隱藏表示hj,計算注意力權重βi,j;基于注意力權重βi,j,對每個數據記錄的隱藏表示進行加權求和,得到上下文向量
式中,Wa為模型參數;
S3-3,在生成過程中引入數據表的主題表示,保證文本與數據表的主題一致性,提升用詞的準確性:
將解碼器隱藏表示dt、上下文向量以及主題表示zs進行拼接和非線性變換,得到特征表示
式中,Wd和bd為模型參數;
S3-4,將特征表示映射到詞表空間,計算每個詞的生成概率:
式中,Wy與by為模型參數,y<t代表第t個時間步之前生成的詞序列,s代表輸入的數據表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網天津市電力公司;國家電網有限公司,未經國網天津市電力公司;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011241616.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:外墻絲桿封堵結構及其施工方法
- 下一篇:一種電力金具成型鑄造方法





