[發明專利]一種用于隱式篇章關系分析的顯式數據篩選方法及系統在審
| 申請號: | 202110872310.2 | 申請日: | 2021-07-30 |
| 公開(公告)號: | CN113779963A | 公開(公告)日: | 2021-12-10 |
| 發明(設計)人: | 鑒萍;田宇航 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/216;G06F40/279 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 張利萍 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 篇章 關系 分析 數據 篩選 方法 系統 | ||
本發明涉及一種用于隱式篇章關系分析的顯式數據篩選方法及系統,屬于自然語言處理技術領域。本發明從隱式數據和插入推薦連接詞隱式數據的篇章關系預測結果分布中提取判斷連接詞可有可無的規則,并將顯式數據和去掉連接詞顯式數據篇章關系預測結果分布中符合上述規則的數據提取出來,用這些數據對隱式篇章關系進行數據增強。對比現有技術,本發明提升了隱式篇章關系識別的準確度。
技術領域
本發明涉及一種隱式篇章關系分析數據增強方法,特別涉及一種用于隱式篇章關系分析的顯式數據篩選方法及系統,屬于自然語言處理技術領域。
背景技術
隱式篇章關系分析是篇章關系分析領域的重要分支,也是當前亟待解決的難點技術問題。
隱式篇章關系建立在詞法和句法分析之上,旨在從篇章級別對沒有篇章連接詞連接的句間關系進行識別與歸類。當前,對于隱式篇章關系識別的研究還不是很成熟,一方面,由于句子(亦稱論元)之間缺乏篇章連接詞,模型必須通過理解文本中的深層語義來識別句間的隱式關系;另一方面,隱式數據標注成本較高,數據比較匱乏。
現有的研究方法主要從兩個方向入手,一是通過對模型的改進,希望模型能夠更好的理解隱含在句子中的深層語義;二是如何合理的利用顯式數據來對隱式篇章關系進行數據增強。其中,顯式篇章關系數據是指句子(亦稱論元)之間含有顯式的連接詞來連接。
由于形式和目標的天然一致性,部分研究者開始分析能否用顯式篇章關系分析的數據來對隱式篇章關系數據進行數據增強。但是,并不是所有顯式數據都和隱式數據是同分布的,在顯式數據中,只有部分數據可以用來給隱式數據做數據增強。由于顯式數據可以通過大量基于連接詞匹配的方式從海量數據中獲得,如何提取出顯式數據中與隱式數據同分布的那部分數據,對與隱式篇章關系識別任務有著重要意義。
Wang等人提出了典型/非典型顯式數據的觀點,認為只有典型的顯式數據才能用于對隱式數據進行數據增強,并且通過手動設置語言學規則挑選出典型的顯式數據。Rutherford等人通過統計連接詞的省略率和去掉連接詞后的上下文語境差的大小來衡量一個顯式數據的連接詞是否被刪除。Xu等人利用主動學習用所有顯式數據對隱式篇章關系識別進行數據增強。
綜上所述,現在利用顯式數據的方式,一種是采用離散特征挑選部分典型的顯式數據;另一種是將所有顯式數據都用來做數據增強。但是,這些方法存在以下缺陷:
1.直接標注隱式數據的成本太高,實現起來難度大。
2.由于并非所有顯式數據都是和隱式數據同分布的,因此將顯式數據全部用上反而會使隱式篇章關系分析的效果下降。
發明內容
本發明的目的是為了解決隱式篇章關系識別任務中面臨的數據稀缺、如何利用合理顯式數據的技術問題,提出一種用于隱式篇章關系分析的顯式數據篩選方法及系統。
由于顯式數據中只有部分數據和隱式數據是同分布的,因此,將顯式數據分為兩部分:
(1)連接詞必不可少,連接詞對邏輯關系有著決定作用。
例:I want to go home for the holiday.Nonetheless,I will book a flightto Hawaii.
(2)連接詞可有可無,去掉連接詞也可以表達相同的邏輯關系。
例:Let’s go to dinner because I’m hungry
其中,第一部分明顯是和隱式數據不同分布的,不能用于對隱式篇章關系數據進行數據增強。第二部分和隱式數據是同分布的,可以用于對隱式篇章關系數據進行數據增強。
因此,如何將顯式篇章關系數據的這兩種數據分布進行有效區分,是本發明要解決的核心問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110872310.2/2.html,轉載請聲明來源鉆瓜專利網。





