[發明專利]一種問題驅動的社交網絡答案摘要自動生成方法與裝置在審
| 申請號: | 202111365252.0 | 申請日: | 2021-11-17 |
| 公開(公告)號: | CN114048309A | 公開(公告)日: | 2022-02-15 |
| 發明(設計)人: | 楊鵬;李冰;陳維威;于曉潭 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/216;G06F40/30;G06N3/04;G06N5/04;G06Q50/00 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 杜靜靜 |
| 地址: | 211135 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 問題 驅動 社交 網絡 答案 摘要 自動 生成 方法 裝置 | ||
1.一種問題驅動的社交網絡答案摘要自動生成方法,其特征在于,所述方法包括以下步驟:
步驟1:社交網絡文本采集;
步驟2:數據預處理;
步驟3:模型訓練;
步驟4:模型測試與文本生成。
2.根據權利要求1所述的一種問題驅動的社交網絡答案摘要自動生成方法,其特征在于,步驟1:社交網絡文本采集,首先從社交網絡平臺中抓取大量的問答文本,并根據人工規則生成答案的標準摘要,問題,答案與標準答案摘要共同組成樣本數據集D,標準答案摘要的生成規則主要是利用“眾包”技術對答案進行摘要,形成標準答案摘要,最后將所有得到的數據按照8∶1∶1進行分割形成訓練集、驗證集和測試集。
3.根據權利要求1所述的一種問題驅動的社交網絡答案摘要自動生成方法,其特征在于,步驟2:數據預處理,首先對數據進行數據清洗,保留只包含問題、正確答案以及正確答案的摘要的數據,利用nltk庫對問題和正確答案進行分句處理,并剔除只包含兩句以下的數據組,最后,將數據集分別處理為三元組的形式,以便于后續步驟的應用。
4.根據權利要求1所述的一種問題驅動的社交網絡答案摘要自動生成方法,其特征在于,步驟3:模型訓練,利用步驟2處理后的數據集對問題驅動下的分層滑動推理生成器進行訓練,該步驟的實施分為以下子步驟:
子步驟3-1,構建數據層,將三元組利用預訓練的Glove對問題和答案中的每個單詞序列轉化為詞向量表示,構建50k的詞匯表,并分別得到映射后的問題詞向量序列Eq,答案詞向量序列Ea,其中答案中的句子級別的詞向量序列為
子步驟3-2,構建文本編碼層,采用一個雙層Bi-LSTM循環神經網絡編碼器分別對問題詞向量序列Eq和答案詞向量序列Ea進行語義編碼提取,得到學習后的上下文語義表示:
Hq=Bi-LSTM(Eq)
同時得到為整個答案的整體語義表示,其中[,]表示連接操作;
子步驟3-3,構建推理層,推理層包含兩大步驟,分別為分層滑動融合機制和cross-attention機制,首先利用分層滑動融合機制將答案中的每個句子融合為小節的形式,具體的做法如下:
對答案中相鄰的k個句子進行融合操作,并再次通過Bi-LSTM編碼器進行小節的上下文信息表示,得到相鄰k個句子的語義表示,此時整個答案的語義表示為
接著對上述融合后的小節語義信息通過cross-attention機制:
headi=Attention(Q,K,V)WiV
MultiHead(Q,K,V)=[head1,...,headh]WO
其中WiQ、Wik、WiV、WO為可學習參數,然后利用multi-head attention機制分別對問題和答案進行權值計算:對于問題中的信息,主要計算問題和答案中的每個句子的權值,并通過池化層得到在答案中單個句子的影響下的被分配了權重的問題的上下文語義表示:
對于答案中的句子信息,為了學習句子中單詞的依存關系,捕捉句子的內部結構,首先對融合k個句子之后的小節語義表示利用self-attention機制找出句子內部的關鍵信息所在位置;
在突出字級別的語義表示的基礎上,利用multi-head attention機制計算k級融合句子與問題之間的關系,獲得在問題的影響下被分配了權重的k級融合后的答案句子的上下文語義表示
最后,將k級融合句子表示執行平均池化層,獲得最后在問題影響下的句子級別的答案表示,這可以應用在解碼階段取評估答案中每個句子的重要程度,
子步驟3-4,構建生成層,主要通過設計一種雙驅動的選擇生成器,將問題和答案都加入到復制池中,進而進行后續生成和復制摘要中的單詞的操作,具體實施如下:
首先,對編碼后的答案語義上下文表示利用單詞LSTM進行解碼,在解碼的原始時間戳和最后時間戳,輸入向量分別為SOS和EOS的單詞嵌入式表示,在解碼的t時刻,采用Curriculum學習的方式進行訓練,即利用隨機概率p去選擇當前解碼時間戳的輸入為真實輸出yt或者為上一時間戳的解碼輸出wt,解碼當前時刻的隱含層的輸出st:
st=LSTM(st-1,yt-1)
問題與答案中每個單詞的注意力分布與的計算如下,主要為問題和答案關鍵信息的概率分布,即告訴解碼器在哪里尋找下一個生成的單詞:
其中,Wq、Wa、bq、ba為可學習參數;
然后,將在推理層所得到的單詞級別的問題與答案的語義表示與當前解碼時刻所得到的隱含層語義表示st計算句子級別的注意力權重和并通過二次加權單詞級別的單詞概率分布,獲得加權后的源文本的單詞概率分布:
其中,WF、WD、bq、bs為可學習參數,i|u和j|u表示整個句子u所包含的對應單詞i,j,dk為整個解碼的總步數,σ為sigmoid激活函數,
通過上述二次加權后所得到的注意力分布計算最后的上下文向量,并生成整個詞匯表的概率分布Pvocab:
當前解碼時刻t的最后預測單詞ωt在詞匯表中的概率分布P(ωt)=Pvocab(ωt),設計了一種雙驅動下的指針生成網絡,將問題添加到復制池中,增加復制池原始單詞的容量:
其中,Wc和bc屬于可學習參數,通過概率pgen去選擇最后生成的單詞是從詞匯表中尋找還是從問題或者答案中進行復制,類似于門控機制,控制最后生成的單詞的流向,
子步驟3-5,聯合訓練損失,采用隨機初始化的方式對所有的參數進行初始化,采用AdaGrad優化器進行梯度反向傳播更新模型參數,初始學習率設置為0.15,初始累加器值為0.1,并使用最大梯度范數為1的梯度進行剪切,生成的摘要控制在100個單詞以內,當訓練損失不再下降或訓練輪數超過32輪,模型訓練結束,并保存在驗證集上表現最好的模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111365252.0/1.html,轉載請聲明來源鉆瓜專利網。





