[發明專利]基于多任務學習的篇章級文本連貫性分類方法有效
| 申請號: | 202110667388.0 | 申請日: | 2021-06-16 |
| 公開(公告)號: | CN113312452B | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 趙鐵軍;夏名宏;朱聰慧;徐冰;楊沐昀;曹海龍 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/211;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 孫莉莉 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 任務 學習 篇章 文本 連貫性 分類 方法 | ||
本發明提出基于多任務學習的篇章級文本連貫性分類方法,所述方法包括:步驟1、使用預訓練模型得到篇章級文本中每一句話的句子向量表示;步驟2、將句子向量作為輸入,使用Transformer模型,得到篇章級文本的整體向量表示;步驟3、構建句子排序任務,使用該任務對篇章級文本的整體向量表示進行調整;步驟4、根據調整后的篇章級文本整體向量表示通過分類器得到文本連貫性分類。通過上述方法解決了現有技術中的問題,所述方法對信息檢索以及自然語言處理中的多任務學習、作文自動評分、文檔向量化等方向有著重要作用。
技術領域
本發明屬于自然語言處理領域技術領域,特別是涉及基于多任務學習的篇章級文本連貫性分類方法。
背景技術
篇章連貫性建模是自然語言處理中的一個基礎問題,它在多語言即時機器翻譯、文本自動摘要等方面均有廣泛的應用前景。篇章語義連貫性是衡量篇章中句子間語義是否通順和形式是否銜接的一個重要因素。語篇連貫性反映了語篇局部與整體的建構關系。尤其在較長片段文本中,其中句子之間的形式是否銜接,句子結構是否合理,以及句子的主旨和所表達的語義是否一致是決定了該文本是否具有可讀性、是否可以被正確理解。
目前國內外對于篇章級文本連貫性的研究,主要包括傳統機器學習方法和神經網絡方法。傳統機器學習方法包括基于實體的網絡模型、基于實體轉移的連貫性判別模型以及基于潛在語義的篇章級文本連貫性模型等。神經網絡方法包括使用循環神經網絡、卷積神經網絡等對人工提取的文章特征進行建模,例如文本長度、經過序列標注產生的實體轉移、文本主題等。
對于篇章級文本連貫性分類,目前存在著以下問題:首先雖然預訓練模型在文本向量化已經取得了不錯的效果,但篇章級文本長度過長,大部分預訓練模型無法很好學到其語義信息;其次,篇章級文本句子主題轉變較大,很難識別篇章級文本的主題;最后,影響文本連貫性的特征較多,如實體詞、過渡詞和句子順序等,單一特征提取器很難將特征提取完全。
發明內容
本發明目的是解決現有技術中的問題,提出了基于多任務學習的篇章級文本連貫性分類方法。
本發明是通過以下技術方案實現的,本發明提出基于多任務學習的篇章級文本連貫性分類方法,具體包括以下步驟:
步驟1、使用預訓練模型得到篇章級文本中每一句話的句子向量表示;
步驟2、將句子向量作為輸入,使用Transformer模型,得到篇章級文本的整體向量表示;
步驟3、構建句子排序任務,使用該任務對篇章級文本的整體向量表示進行調整;
步驟4、根據調整后的篇章級文本整體向量表示通過分類器得到文本連貫性分類。
進一步地,所述步驟1具體為:
將篇章級文本按照句子粒度進行劃分,得到單個句子,記為{s1,s2,…,sn},n表示句子個數,將每個句子依次通過分詞、詞的id化和生成位置編碼步驟,輸入到XLNet預訓練模型中,取XLNet模型最后一層的輸出作為句子中每個詞的向量化表示,即句si的輸出為{w1,w2,…,wm},i=1,2,…,n;其中,wj為句si中第j個位置詞的向量表示,m表示第i個句子里面詞的個數;j=1,2,…,m;為了得到句向量表示,將句中詞向量進行平均池化,即
其中,vi為句si的向量表示;由此,即可得到篇章中每個句子的向量表示,為{v1,v2,…,vn}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110667388.0/2.html,轉載請聲明來源鉆瓜專利網。





