[發(fā)明專利]一種用于隱式篇章關(guān)系分析的顯式數(shù)據(jù)篩選方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110872310.2 | 申請日: | 2021-07-30 |
| 公開(公告)號: | CN113779963A | 公開(公告)日: | 2021-12-10 |
| 發(fā)明(設(shè)計)人: | 鑒萍;田宇航 | 申請(專利權(quán))人: | 北京理工大學(xué) |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/216;G06F40/279 |
| 代理公司: | 北京正陽理工知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11639 | 代理人: | 張利萍 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 篇章 關(guān)系 分析 數(shù)據(jù) 篩選 方法 系統(tǒng) | ||
1.一種用于隱式篇章關(guān)系分析的顯式數(shù)據(jù)篩選方法,其特征在于,包括以下步驟:
步驟1:獲取語料庫樣本和篇章關(guān)系類別,語料庫包括顯式數(shù)據(jù)和隱式數(shù)據(jù);對樣本進(jìn)行預(yù)處理,每個樣本包括兩個以上的句子,一個句子稱為一個論元;
步驟2:將顯式數(shù)據(jù)和隱式數(shù)據(jù)均劃分為三個數(shù)據(jù)集,分別為訓(xùn)練集、驗證集、測試集;
此處,定義兩種格式的隱式篇章關(guān)系數(shù)據(jù)集:
Dataset1:原始的隱式篇章關(guān)系數(shù)據(jù)集;
Dataset2:帶推薦鏈接詞的隱式篇章關(guān)系數(shù)據(jù)集;
定義兩種格式顯式篇章關(guān)系數(shù)據(jù)集:
Dataset3:原始的顯式篇章關(guān)系數(shù)據(jù)集;
Dataset4:去掉連接詞的顯式篇章關(guān)系數(shù)據(jù)集;
步驟3:用Dataset1的訓(xùn)練集,訓(xùn)練一個隱式篇章關(guān)系分類器M1;
步驟4:將Dataset1的測試集,輸入到訓(xùn)練好的隱式篇章關(guān)系分類器M1中,得到Dataset1隱式數(shù)據(jù)的分類結(jié)果概率分布A1;
步驟5:將所有隱式數(shù)據(jù)加上其推薦連接詞,形成Dataset2;
步驟6:用Dataset2的訓(xùn)練集,訓(xùn)練一個顯式篇章關(guān)系分類器M2,分類器M2結(jié)構(gòu)和分類器M1一致;
步驟7:將Dataset2的測試集輸入到訓(xùn)練好的顯式篇章關(guān)系分類器M2中,得到Dataset2的分類結(jié)果概率分布A2;
對于<隱式數(shù)據(jù),帶推薦連接詞的隱式數(shù)據(jù)>這種代表連接詞可有可無的數(shù)據(jù)中存在一種規(guī)則R1,即,無論有無連接詞都能正確預(yù)測邏輯關(guān)系,連接詞只起到了強化作用;
步驟8:將所有Dataset3輸入到顯式篇章關(guān)系分類器M2中進(jìn)行預(yù)測,得到所有數(shù)據(jù)的分類結(jié)果概率分布B1;
步驟9:將所有Dataset3中的連接詞去掉,形成Dataset4;
步驟10:將所有Dataset4輸入到隱式篇章關(guān)系分類器M1中進(jìn)行預(yù)測,得到所有數(shù)據(jù)的分類結(jié)果概率分布B2;
步驟11:基于從<隱式數(shù)據(jù),帶推薦連接詞的隱式數(shù)據(jù)>的分類結(jié)果概率分布中提取出的規(guī)則R1,將所有<顯式數(shù)據(jù)去掉連接詞,顯式數(shù)據(jù)>中符合上述規(guī)則的數(shù)據(jù)提取出來,得到新的去掉連接詞的顯式篇章關(guān)系數(shù)據(jù)集Dataset4-1;
步驟12:將Dataset4-1加入到Dataset1的訓(xùn)練集,得到新的隱式篇章關(guān)系數(shù)據(jù)集Dataset1-1數(shù)據(jù)集;
步驟13:使用新得到的Dataset1-1數(shù)據(jù)集,重新訓(xùn)練一個隱式篇章關(guān)系分類模型M3;
步驟14:將Dataset1的測試集分別用M1模型和M3模型進(jìn)行預(yù)測,得到預(yù)測結(jié)果的f1值和正確率。
2.如權(quán)利要求1所述的一種用于隱式篇章關(guān)系分析的顯式數(shù)據(jù)篩選方法,其特征在于,步驟3中,采用BERT+MLP的方式構(gòu)建分類器M1:
sentence1+sentence2(Dataset1)-→M1 (1)
其中,sentence1表示隱式句對中的第一個句子,sentence2表示句對中的第二個句子。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學(xué),未經(jīng)北京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110872310.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





