[發(fā)明專利]一種半監(jiān)督的中英文隱式篇章關(guān)系識別方法與系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110796271.2 | 申請日: | 2021-07-14 |
| 公開(公告)號: | CN113255371B | 公開(公告)日: | 2021-09-24 |
| 發(fā)明(設(shè)計)人: | 鄔昌興;胡明昆;俞亮 | 申請(專利權(quán))人: | 華東交通大學(xué) |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/42;G06N3/04 |
| 代理公司: | 北京中濟緯天專利代理有限公司 11429 | 代理人: | 黃攀 |
| 地址: | 330000 江西省南*** | 國省代碼: | 江西;36 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 監(jiān)督 中英文 篇章 關(guān)系 識別 方法 系統(tǒng) | ||
本發(fā)明提出一種半監(jiān)督的中英文隱式篇章關(guān)系識別方法與系統(tǒng),該方法包括如下步驟:步驟一、數(shù)據(jù)集準(zhǔn)備;步驟二、模型構(gòu)建:在基于注意力機制的隱式篇章關(guān)系識別模型的基礎(chǔ)上,分別構(gòu)建得到中文隱式篇章關(guān)系識別模型以及英文隱式篇章關(guān)系識別模型;步驟三、無監(jiān)督的模型訓(xùn)練;步驟四、有監(jiān)督的模型訓(xùn)練;步驟五、預(yù)測結(jié)果輸出。本發(fā)明提出的半監(jiān)督的中英文隱式篇章關(guān)系識別方法,基于兩種語言中大量未標(biāo)注的篇章關(guān)系數(shù)據(jù)集和少量人工標(biāo)注的篇章關(guān)系數(shù)據(jù)集聯(lián)合訓(xùn)練中文和英文隱式篇章關(guān)系識別模型,可充分有效地利用兩種語言中未標(biāo)注的和標(biāo)注的數(shù)據(jù)集,以同時提高中英文隱式篇章關(guān)系識別的性能。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機語言處理技術(shù)領(lǐng)域,特別涉及一種半監(jiān)督的中英文隱式篇章關(guān)系識別方法與系統(tǒng)。
背景技術(shù)
隱式篇章關(guān)系識別旨在自動推斷缺少篇章連接詞的兩個論元(句子或子句)之間的語義關(guān)系,例如,轉(zhuǎn)折和因果。在不同的語言中,通常都有少量人工標(biāo)注的篇章關(guān)系數(shù)據(jù)集,例如,中文CDTB數(shù)據(jù)集和英文PDTB數(shù)據(jù)集。由于人工標(biāo)注篇章關(guān)系數(shù)據(jù)集非常困難,導(dǎo)致不管是CDTB數(shù)據(jù)集還是PDTB數(shù)據(jù)集的規(guī)模都比較小。其中,CDTB數(shù)據(jù)集中標(biāo)注的隱式篇章關(guān)系實例有5500個左右,而目前規(guī)模最大的PDTB數(shù)據(jù)集中也僅包含16000個左右的實例。這些人工標(biāo)注的語料雖然數(shù)量不多,但質(zhì)量非常高。因此,如何充分有效地利用不同語言中標(biāo)注的篇章關(guān)系數(shù)據(jù)集是一個非常值得研究的問題,能有效地緩解訓(xùn)練數(shù)據(jù)短缺的問題,從而提升隱式篇章關(guān)系識別模型的性能。
中文和英文中都具有少量標(biāo)注的篇章關(guān)系數(shù)據(jù)集,雖然他們各自定義的篇章關(guān)系類別有一定的差異,不存在一一對應(yīng)關(guān)系,但兩種不同語言的數(shù)據(jù)集顯然是可以相互增強的。如圖1所示,對于本發(fā)明提出的中文和英文隱式篇章關(guān)系實例示意圖,其中,中文篇章實例中的“轉(zhuǎn)折關(guān)系”和英文篇章實例中的“Contrast”關(guān)系是相互對應(yīng)的。因此,隱式篇章關(guān)系識別模型應(yīng)該具備從這些不同語言中具有相同語義關(guān)系的實例中學(xué)習(xí)知識的能力。
然而,現(xiàn)有技術(shù)中,缺少同時利用中英兩種語言中大量未標(biāo)注的篇章關(guān)系數(shù)據(jù)集和少量人工標(biāo)注的篇章關(guān)系數(shù)據(jù)集進行隱式篇章關(guān)系識別的方法,在一定程度上限制了中英文隱式篇章關(guān)系的識別性能的提高。
發(fā)明內(nèi)容
鑒于上述狀況,有必要解決現(xiàn)有技術(shù)中,缺少同時利用中英兩種語言中人工標(biāo)注的篇章關(guān)系數(shù)據(jù)集進行隱式篇章關(guān)系識別的方法,在一定程度上限制了中英文隱式篇章關(guān)系的識別性能的提高的問題。
本發(fā)明實施例提出一種半監(jiān)督的中英文隱式篇章關(guān)系識別方法,其中,所述方法包括如下步驟:
步驟一、數(shù)據(jù)集準(zhǔn)備:
給定人工標(biāo)注的中文篇章關(guān)系數(shù)據(jù)集和英文篇章關(guān)系數(shù)據(jù)集,以及未標(biāo)注的中文篇章關(guān)系數(shù)據(jù)集和英文篇章關(guān)系數(shù)據(jù)集,基于中英互譯機器翻譯系統(tǒng)進行翻譯以分別得到的譯文數(shù)據(jù)集,的譯文數(shù)據(jù)集,的譯文數(shù)據(jù)集以及的譯文數(shù)據(jù)集;
步驟二、模型構(gòu)建:
在基于注意力機制的隱式篇章關(guān)系識別模型的基礎(chǔ)上,分別構(gòu)建得到中文隱式篇章關(guān)系識別模型以及英文隱式篇章關(guān)系識別模型;
步驟三、無監(jiān)督的模型訓(xùn)練:
基于未標(biāo)注的中文篇章關(guān)系數(shù)據(jù)集、未標(biāo)注的英文篇章關(guān)系數(shù)據(jù)集、的譯文數(shù)據(jù)集以及的譯文數(shù)據(jù)集,隨機初始化中文隱式篇章關(guān)系識別模型的參數(shù)以及英文隱式篇章關(guān)系識別模型的參數(shù),對所述中文隱式篇章關(guān)系識別模型以及所述英文隱式篇章關(guān)系識別模型進行無監(jiān)督訓(xùn)練直至達到最大訓(xùn)練輪數(shù)以得到無監(jiān)督訓(xùn)練后參數(shù)以及參數(shù)的值;
其中,在訓(xùn)練過程中,基于中文隱式篇章關(guān)系識別模型與英文隱式篇章關(guān)系識別模型的元篇章關(guān)系預(yù)測結(jié)果分別定義基于知識遷移的代價函數(shù),分別在未標(biāo)注的中文篇章關(guān)系數(shù)據(jù)集以及未標(biāo)注的英文篇章關(guān)系數(shù)據(jù)集上最小化對應(yīng)的基于知識遷移的代價函數(shù),以實現(xiàn)中文隱式篇章關(guān)系識別模型與英文隱式篇章關(guān)系識別模型之間的知識遷移;
步驟四、有監(jiān)督的模型訓(xùn)練:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華東交通大學(xué),未經(jīng)華東交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110796271.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機器人表情調(diào)用方法和家用機器人
- 計算機視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計算機視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





