[發(fā)明專利]一種基于自訓(xùn)練與噪聲模型的因果事件抽取方法有效
| 申請?zhí)枺?/td> | 202010397785.6 | 申請日: | 2020-05-12 |
| 公開(公告)號: | CN111651983B | 公開(公告)日: | 2021-06-18 |
| 發(fā)明(設(shè)計)人: | 丁效;劉挺;秦兵;廖闊 | 申請(專利權(quán))人: | 哈爾濱工業(yè)大學(xué) |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 哈爾濱市松花江專利商標事務(wù)所 23109 | 代理人: | 時起磊 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 訓(xùn)練 噪聲 模型 因果 事件 抽取 方法 | ||
一種基于自訓(xùn)練與噪聲模型的因果事件抽取方法,本發(fā)明涉及因果事件抽取的方法。本發(fā)明的目的是解決現(xiàn)有基于深度學(xué)習(xí)模型的因果事件抽取方法在有標注數(shù)據(jù)不足的領(lǐng)域或場景中效果有限的問題。過程為:一、收集已標注的目標領(lǐng)域文本;二、計算一個向量表示;三、計算出概率最大的標簽序列;四、訓(xùn)練三中的模型,并對二中的模型進行微調(diào);五、得到大量自標注數(shù)據(jù);六、為每個單詞計算一個向量表示,計算單詞序列生成每個可能的標簽序列的概率;七、計算自標注文本中每個單詞的噪聲矩陣;八、得到由單詞序列生成自標注標簽序列的概率;九、使用一中有標注數(shù)據(jù)與五中自標注數(shù)據(jù)共同訓(xùn)練二、三、六、七中的整體模型。本發(fā)明用于因果事件抽取領(lǐng)域。
技術(shù)領(lǐng)域
本發(fā)明涉及基于自訓(xùn)練與噪聲模型進行因果事件抽取的方法。
背景技術(shù)
近年來,深度學(xué)習(xí)方法在各項具有挑戰(zhàn)性的自然語言處理任務(wù)上取得了令人印象深刻的結(jié)果,如機器翻譯(Kyunghyun Cho,Bart VanCaglar Gulcehre,Dzmitry Bahdanau,Fethi Bougares,Holger Schwenk,and YoshuaBengio.2014.Learning phrase representations using RNN encoder-decoder forstatistical machine translation.In Proceedings of the 2014 Conference onEmpirical Methods in Natural Language Processing(EMNLP).)與閱讀理解(DanqiChen,Adam Fisch,Jason Weston,and Antoine Bordes.2017.Reading wikipedia toanswer open-domain questions.In Proceedings of the 55th Annual Meeting of theAssociation for Computational Linguistics,pages 1870–1879.)。深度學(xué)習(xí)方法使用深度神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)輸入與輸出數(shù)據(jù)間的函數(shù)關(guān)系,與傳統(tǒng)機器學(xué)習(xí)方法相比,深度神經(jīng)網(wǎng)絡(luò)可以自動為最終任務(wù)學(xué)習(xí)出有效的特征,而無需依賴特征工程,從而使模型的學(xué)習(xí)過程能夠以端到端的方式進行,大大提高了其實用性。然而,端到端的深度學(xué)習(xí)模型由于結(jié)構(gòu)復(fù)雜、參數(shù)量大,往往需要大量有標注的數(shù)據(jù)才能較好地訓(xùn)練。獲取標注數(shù)據(jù)需要人類專家的參與,其代價是十分昂貴的,限制了深度學(xué)習(xí)方法在低資源語言、領(lǐng)域上的應(yīng)用。
另一方面,無標注的數(shù)據(jù)往往很容易獲取,即使是在有標注數(shù)據(jù)較少的語言和領(lǐng)域上。半監(jiān)督學(xué)習(xí)方法提出同時使用大量無標注數(shù)據(jù)與少量有標注數(shù)據(jù)訓(xùn)練模型,這一方法僅需較少的人力進行數(shù)據(jù)標注,并且往往能夠取得比僅使用有標注數(shù)據(jù)更好的結(jié)果,因此在理論和實踐上都廣受關(guān)注。在半監(jiān)督學(xué)習(xí)方法中,自訓(xùn)練(Self-Training)(Yarowsky,D.(1995).Unsupervised word sense disambiguation rivaling supervisedmethods.Proceedings of the 33rd Annual Meeting of the Association forComputational Linguistics(pp.189–196).)是一種實用的包裝方法。該方法首先在少量有標注的種子數(shù)據(jù)上訓(xùn)練模型,之后使用模型對無標注數(shù)據(jù)進行標注,構(gòu)造自標注數(shù)據(jù),并篩選出置信度較高的自標注數(shù)據(jù)用來進一步訓(xùn)練模型。該方法對模型的結(jié)構(gòu)與任務(wù)的形式不做任何假設(shè),因此可以很好地與結(jié)構(gòu)復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)結(jié)合,并應(yīng)用于各種任務(wù)上。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué),未經(jīng)哈爾濱工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010397785.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





