[發(fā)明專利]一種基于關(guān)系型圖卷積網(wǎng)絡(luò)的小樣本細(xì)粒度實(shí)體分類方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110346254.9 | 申請(qǐng)日: | 2021-03-31 |
| 公開(kāi)(公告)號(hào): | CN113051399B | 公開(kāi)(公告)日: | 2022-05-24 |
| 發(fā)明(設(shè)計(jì))人: | 魯偉明;陳晨;莊越挺 | 申請(qǐng)(專利權(quán))人: | 浙江大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/126;G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 劉靜 |
| 地址: | 310058 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 關(guān)系 圖卷 網(wǎng)絡(luò) 樣本 細(xì)粒度 實(shí)體 分類 方法 | ||
本發(fā)明公開(kāi)了一種基于關(guān)系型圖卷積網(wǎng)絡(luò)的小樣本細(xì)粒度實(shí)體分類方法。首先,對(duì)句子中待分類的實(shí)體采用“實(shí)體?上下文編碼器”進(jìn)行編碼,并使用對(duì)抗學(xué)習(xí)加強(qiáng)模型魯棒性,使用數(shù)據(jù)增強(qiáng)自動(dòng)生成新數(shù)據(jù)。其次,構(gòu)建可有效感知小樣本的類別共現(xiàn)圖,并利用關(guān)系型圖卷積網(wǎng)絡(luò)對(duì)類別進(jìn)行編碼。之后,通過(guò)匹配實(shí)體和類別的編碼來(lái)對(duì)實(shí)體進(jìn)行分類。整個(gè)模型通過(guò)元學(xué)習(xí)方式進(jìn)行訓(xùn)練。最后,將小樣本的類別數(shù)據(jù)輸入模型對(duì)其參數(shù)進(jìn)行微調(diào),即可利用該模型為這些小樣本類別的其他目標(biāo)實(shí)體進(jìn)行分類。
技術(shù)領(lǐng)域
本發(fā)明屬于實(shí)體分類技術(shù)領(lǐng)域,尤其涉及一種基于關(guān)系型圖卷積網(wǎng)絡(luò)的小樣本細(xì)粒度實(shí)體分類方法。
背景技術(shù)
細(xì)粒度實(shí)體分類是自然語(yǔ)言處理中的一項(xiàng)基本任務(wù),該任務(wù)是為包含周圍上下文的特定實(shí)體分配合適的類別。類別概念是人類認(rèn)識(shí)世界時(shí)構(gòu)筑思維體系最基本的單位。有了類別,人們可以提取所屬類別下實(shí)體的共性本質(zhì)特點(diǎn),而無(wú)需糾結(jié)于其中的細(xì)微差別。此外,正確的實(shí)體類別信息也將幫助人們更好地理解并認(rèn)識(shí)新實(shí)體,同樣也能服務(wù)于更多的下游任務(wù)。
現(xiàn)如今有大量通過(guò)卷積神經(jīng)網(wǎng)絡(luò)組成的深度學(xué)習(xí)模型被提出來(lái)解決該任務(wù),但當(dāng)前的這些模型均依賴于大型的標(biāo)注訓(xùn)練集。當(dāng)標(biāo)注的數(shù)據(jù)有限時(shí),它們往往效果較差。考慮到實(shí)際生產(chǎn)環(huán)境中收集并標(biāo)注大量數(shù)據(jù)代價(jià)昂貴,且手動(dòng)標(biāo)記容易出錯(cuò),可以采用小樣本學(xué)習(xí)的方式解決該問(wèn)題。
鑒于此,我們一方面特別關(guān)注了其他有足夠標(biāo)注樣本的類別,構(gòu)建了可有效感知小樣本的類別共現(xiàn)圖,并利用關(guān)系型圖卷積網(wǎng)絡(luò)獲得更佳的類別表達(dá)。另一方面,針對(duì)標(biāo)注數(shù)據(jù)少的問(wèn)題,我們采用了數(shù)據(jù)增強(qiáng)的方式自動(dòng)生成更多帶標(biāo)簽的訓(xùn)練數(shù)據(jù);針對(duì)模型魯棒性問(wèn)題,則采用了對(duì)抗學(xué)習(xí)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于關(guān)系型圖卷積網(wǎng)絡(luò)的小樣本細(xì)粒度實(shí)體分類方法,從而在只有較少標(biāo)注的訓(xùn)練數(shù)據(jù)時(shí),可以對(duì)這些小樣本類別的其他目標(biāo)實(shí)體進(jìn)行正確分類。
本發(fā)明解決其技術(shù)問(wèn)題采用的技術(shù)方案如下:一種基于關(guān)系型圖卷積網(wǎng)絡(luò)的小樣本細(xì)粒度實(shí)體分類方法,該方法包括以下步驟:
1)劃分?jǐn)?shù)據(jù)集:在每一個(gè)訓(xùn)練批次前,將包含大規(guī)模標(biāo)注樣本的數(shù)據(jù)集劃分為與小樣本同規(guī)模的支持集,并構(gòu)建查詢集和訓(xùn)練集。
2)擴(kuò)充支持集:利用數(shù)據(jù)增強(qiáng)自動(dòng)對(duì)小樣本類別數(shù)據(jù)進(jìn)行擴(kuò)充。
3)實(shí)體表示:對(duì)句子中的實(shí)體采用“實(shí)體-上下文編碼器”進(jìn)行編碼,其中對(duì)實(shí)體采用平均編碼器,對(duì)上下文采用Bi-LSTM編碼,并使用對(duì)抗訓(xùn)練加強(qiáng)小樣本實(shí)體分類模型魯棒性。
4)類別表示:構(gòu)建可感知小樣本的類別共現(xiàn)圖,并利用關(guān)系型圖卷積網(wǎng)絡(luò)得到類別表示。
5)以元學(xué)習(xí)方式訓(xùn)練模型,獲得小樣本分類器:根據(jù)匹配得分為實(shí)體分配合適的類別,通過(guò)基于episode的訓(xùn)練方式,在步驟1)中構(gòu)建的訓(xùn)練集、支持集和查詢集上訓(xùn)練,計(jì)算梯度并在每次訓(xùn)練迭代中更新模型。
6)小樣本實(shí)體分類:將包含小樣本類別的支持集和包含頻繁樣本類別的訓(xùn)練集一起傳入步驟5)得到的分類器對(duì)模型參數(shù)進(jìn)行微調(diào),再將待分類的查詢集輸入分類器,分類器將輸出實(shí)體匹配的小樣本類別。
進(jìn)一步地,所述步驟1)具體為:
為每個(gè)episode劃分?jǐn)?shù)據(jù)集。假定最終待分類的小樣本類別有C個(gè),每類僅提供K個(gè)實(shí)例(即小樣本設(shè)置為C-way K-shot,通常K較小),則將包含大規(guī)模標(biāo)注樣本的數(shù)據(jù)集劃分為同規(guī)模的支持集,并依次構(gòu)建查詢集和訓(xùn)練集。具體為:從數(shù)據(jù)集的類別中隨機(jī)選擇C個(gè)類別,將C個(gè)類別定義為Tsupport,并從中為每個(gè)類別隨機(jī)選擇K個(gè)樣本,從而構(gòu)建支持集令數(shù)據(jù)集中所有樣本類別屬于以上C個(gè)類的樣本集合為X,從X\的集合里(其中\(zhòng)表示減號(hào)集)隨機(jī)選擇R個(gè)樣例作為測(cè)試樣本,構(gòu)成查詢集將原數(shù)據(jù)集內(nèi)的樣本集合X剔除,作為更新后的訓(xùn)練集其中訓(xùn)練集內(nèi)的類別集合定義為Ttrain。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110346254.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 關(guān)系視圖
- 位置關(guān)系檢測(cè)裝置以及位置關(guān)系檢測(cè)系統(tǒng)
- 關(guān)系建模
- 關(guān)系分析方法、關(guān)系分析程序、以及關(guān)系分析裝置
- 實(shí)體關(guān)系分類裝置和實(shí)體關(guān)系分類方法
- 用戶關(guān)系抽取方法和用戶關(guān)系抽取系統(tǒng)
- 融合依存關(guān)系與篇章修辭關(guān)系的事件時(shí)序關(guān)系識(shí)別方法
- 開(kāi)關(guān)系統(tǒng)
- 視頻視覺(jué)關(guān)系檢測(cè)的關(guān)系片段連接方法
- 開(kāi)關(guān)系統(tǒng)
- 一種腸胃鏡配套清潔達(dá)標(biāo)圖譜
- 一種混合高低階圖卷積傳播系統(tǒng)
- 基于圖結(jié)構(gòu)矩陣特征向量的圖卷積神經(jīng)網(wǎng)絡(luò)生成方法
- 基于骨骼關(guān)節(jié)點(diǎn)的圖卷積行為識(shí)別方法及裝置
- 一種基于網(wǎng)絡(luò)結(jié)構(gòu)增強(qiáng)的圖卷積模型防御方法、裝置和系統(tǒng)
- 一種基于骨架的雙流自適應(yīng)圖卷積網(wǎng)絡(luò)行為識(shí)別方法
- 一種基于時(shí)空?qǐng)D卷積網(wǎng)絡(luò)的人臉檢測(cè)方法及裝置
- 一種基于權(quán)重不確定的圖卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法、裝置
- 一種基于圖自編碼器的融合子空間聚類方法及系統(tǒng)
- 基于圖卷積神經(jīng)網(wǎng)絡(luò)交互的推薦方法及系統(tǒng)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





