[發明專利]一種基于LDA和BERT的金融文本機器閱讀理解方法有效
| 申請號: | 202110870683.6 | 申請日: | 2021-07-30 |
| 公開(公告)號: | CN113688876B | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 陳薇羽;羅軼鳳;錢衛寧 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F18/241 | 分類號: | G06F18/241;G06F40/284;G06F40/211;G06F18/214;G06N3/0455;G06N3/084 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lda bert 金融 文本 機器 閱讀 理解 方法 | ||
1.一種基于LDA和BERT的金融文本機器閱讀理解方法,其特征在于,該方法包括以下具體步驟:
步驟1:收集問答數據,收集與問答數據日期臨近的前一年的企業年報半年報數據,對數據進行截斷,清洗,人工標注數據;構建數據集,將數據劃分為訓練集,驗證集和測試集;數據集的字段包括問題、文本和答案;
步驟2:對所有文本進行分詞處理,訓練文本主題模型,通過訓練好的文本主題模型預測文本對應問題的概率大小,并將概率大小以從大到小的順序排序,取前top?N個文本作為候選段落;
步驟3:從候選段落中將包含答案的段落作為正樣本,不包含答案的段落作為負樣本,將判斷段落是否包含答案作為一個分類子任務;
步驟4:將包含答案的段落作為正樣本,不包含答案的段落作為負樣本,將判斷答案的起止位置作為一個分類子任務;
步驟5:將步驟3和步驟4的子任務進行多任務聯合訓練,將子任務的損失值進行線性組合作為多任務訓練的損失函數;
步驟6:構建基于BERT的多任務聯合訓練模型;
步驟7:對訓練集中的文本數據進行分詞處理,并且得到文本的表示,將其輸入構建好的所述多任務聯合訓練模型中,通過反向傳播,更新優化模型中的參數,并保存最優模型;
步驟8:將問題輸入到最優模型中,得到輸入問題的答案;其中:
步驟2所述分詞處理,采用jieba分詞方法;所述文本主題模型為LDA模型;
步驟6所述構建基于BERT的多任務聯合訓練模型,具體過程如下:
Transformer模型包含Encoder和Decoder兩個部分,BERT模型是Transformer的Encoder部分,Encoder部分包含數個重復的層,每個層包含MultiHead?Attention子層和FeedForward子層;每個子層都有AddNorm模塊;
AddNorm模塊:
設輸入為x,該模塊的輸出為LayerNorm(x+Sublayer(x))
其中Sublayer(x)為MultiHead?Attention子層和FeedForward子層的輸出;
MultiHead?Attention模塊:
多頭注意力機制中每個頭的表示為:
將多個頭進行合并得到:
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO
其中
參數矩陣dk分別為輸入向量維度和子空間維度;Attention表示注意力機制,headi表示第i個子空間,Concat表示拼接操作;
注意力機制公式如下:
其中,dk為輸入維度,為尺度因子,Q,K,V分別Attention機制的查詢、鍵和值;
Feed-Forward?Networks模塊:
該模塊的輸入為x,輸出為FFN(x),公式如下:
FFN(x)=max(0,xW1+b1)W2+b2
上述Wi,bi(i=1,2)分別表示第i層神經網絡權重項和偏移項。
2.根據權利要求1所述的金融文本機器閱讀理解方法,其特征在于,步驟1所述數據劃分默認百分之七十為訓練集、百分之十為驗證集和百分之二十為測試集。
3.根據權利要求1所述的金融文本機器閱讀理解方法,其特征在于,步驟3具體過程如下:
包含答案的段落標記為1,不包含答案的段落標記為0,將標記為0樣本進行負采樣處理,隨機選取k個樣本作為負樣本;將判斷段落是否包含答案作為一個分類子任務,其分類子任務的損失函數定義為
losscls=-(y*log(a)+(1-y)log(1-a))
其中a為預測輸出,y為真實標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110870683.6/1.html,轉載請聲明來源鉆瓜專利網。





