[發(fā)明專利]PU強(qiáng)化學(xué)習(xí)的遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110607269.6 | 申請(qǐng)日: | 2021-05-28 |
| 公開(公告)號(hào): | CN113221575B | 公開(公告)日: | 2022-08-02 |
| 發(fā)明(設(shè)計(jì))人: | 羅森林;高依萌;潘麗敏;吳舟婷;尹繼澤 | 申請(qǐng)(專利權(quán))人: | 北京理工大學(xué) |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | pu 強(qiáng)化 學(xué)習(xí) 遠(yuǎn)程 監(jiān)督 命名 實(shí)體 識(shí)別 方法 | ||
本發(fā)明涉及PU強(qiáng)化學(xué)習(xí)的遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別方法,屬于自然語(yǔ)言處理與機(jī)器學(xué)習(xí)領(lǐng)域。主要為了解決中文命名實(shí)體識(shí)別任務(wù)的遠(yuǎn)程監(jiān)督樣本存在噪聲標(biāo)記、模型學(xué)習(xí)樣本特征效率低下問題和訓(xùn)練過程缺乏有效監(jiān)測(cè)機(jī)制。本發(fā)明首先利用BLSTM模型對(duì)文本提取單條樣本序列特征和多標(biāo)簽評(píng)分信息;然后,基于PU強(qiáng)化學(xué)習(xí),訓(xùn)練樣本選擇器,從標(biāo)記語(yǔ)料和遠(yuǎn)程監(jiān)督語(yǔ)料中篩選出正樣本和負(fù)樣本。再將負(fù)樣本送入去噪還原器得到還原樣本。再引入無偏、一致地估計(jì)任務(wù)損失的損失函數(shù),使用正樣本和還原樣本訓(xùn)練中文命名實(shí)體識(shí)別模型;最后重復(fù)上述模型訓(xùn)練,直到篩選標(biāo)記語(yǔ)料趨于穩(wěn)定。在ICT語(yǔ)料、EC語(yǔ)料和NEWS進(jìn)行了實(shí)驗(yàn),結(jié)果表明本發(fā)明能達(dá)到較好的去噪效果。
技術(shù)領(lǐng)域
本發(fā)明涉及PU強(qiáng)化學(xué)習(xí)的遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別方法,屬于自然語(yǔ)言處理與機(jī)器學(xué)習(xí)領(lǐng)域。
背景技術(shù)
目前命名實(shí)體識(shí)別(NER)任務(wù)在特定應(yīng)用領(lǐng)域(如ICT領(lǐng)域),人力和時(shí)間的不足導(dǎo)致難以獲得領(lǐng)域內(nèi)大規(guī)模標(biāo)記語(yǔ)料。目前基于小規(guī)模標(biāo)記語(yǔ)料的中文命名實(shí)體識(shí)別方法主要使用自動(dòng)化擴(kuò)大標(biāo)記語(yǔ)料規(guī)模方法。
自動(dòng)化擴(kuò)大標(biāo)記語(yǔ)料規(guī)模的中文命名實(shí)體識(shí)別方法通過計(jì)算機(jī)自動(dòng)標(biāo)注無標(biāo)記語(yǔ)料或轉(zhuǎn)換其他標(biāo)記語(yǔ)料,使領(lǐng)域內(nèi)標(biāo)記語(yǔ)料的規(guī)模增大。自動(dòng)標(biāo)注的語(yǔ)料提高了模型的性能,但是此類語(yǔ)料攜帶的錯(cuò)誤難以解決。其中,遠(yuǎn)程監(jiān)督使用預(yù)定義的實(shí)體詞典作為額外知識(shí)源,自動(dòng)標(biāo)注語(yǔ)料時(shí)經(jīng)常引入不完整標(biāo)記和噪聲標(biāo)記,這些標(biāo)記誤差累積傳播造成模型訓(xùn)練效率低。并且對(duì)樣本的錯(cuò)誤標(biāo)記缺少一個(gè)有效的監(jiān)測(cè)機(jī)制。篩除錯(cuò)誤樣本的等低效處理方法使得部分樣本未能被模型學(xué)習(xí),導(dǎo)致模型學(xué)習(xí)樣本特征效率低下。
綜上所述,現(xiàn)有的自動(dòng)化擴(kuò)大標(biāo)記語(yǔ)料規(guī)模的中文命名實(shí)體識(shí)別方法在小規(guī)模標(biāo)記語(yǔ)料上主要存在以下問題:(1)在標(biāo)注語(yǔ)料時(shí)引入錯(cuò)誤的標(biāo)記(包括不完整標(biāo)記和噪聲標(biāo)記)造成誤差累積傳播。對(duì)于錯(cuò)誤樣本的低效處理方法導(dǎo)致部分樣本未能被模型學(xué)習(xí),導(dǎo)致模型學(xué)習(xí)樣本特征效率低下。(2)含噪聲樣本對(duì)模型訓(xùn)練的干擾缺乏有效的監(jiān)測(cè)機(jī)制,造成訓(xùn)練迭代次數(shù)多、效果不好。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)中文命名實(shí)體識(shí)別任務(wù)的遠(yuǎn)程監(jiān)督樣本存在不完整標(biāo)記問題、噪聲標(biāo)記問題、模型學(xué)習(xí)樣本特征效率低下問題和訓(xùn)練過程缺乏有效監(jiān)測(cè)機(jī)制問題,提出了PU強(qiáng)化學(xué)習(xí)的遠(yuǎn)程監(jiān)督命名實(shí)體識(shí)別方法。
本發(fā)明的設(shè)計(jì)原理為:首先,建立中文命名實(shí)體識(shí)別模型提取單條樣本序列特征和多標(biāo)簽評(píng)分信息對(duì)命名實(shí)體進(jìn)行分類;其次,獲取人工標(biāo)記語(yǔ)料和遠(yuǎn)程監(jiān)督語(yǔ)料;然后,基于PU強(qiáng)化學(xué)習(xí),訓(xùn)練樣本選擇器,從標(biāo)記語(yǔ)料和遠(yuǎn)程監(jiān)督語(yǔ)料中篩選出正樣本和待還原負(fù)樣本。再將待還原負(fù)樣本送入去噪還原器進(jìn)行重建還原得到還原樣本。再引入能夠無偏、一致地估計(jì)任務(wù)損失的損失函數(shù),使用正樣本和還原樣本訓(xùn)練中文命名實(shí)體識(shí)別模型;最后,重復(fù)樣本選擇器、去噪還原器和中文命名實(shí)體識(shí)別模型的訓(xùn)練過程,直到篩選出的部分標(biāo)記語(yǔ)料不變?yōu)橹埂?/p>
本發(fā)明的技術(shù)方案是通過如下步驟實(shí)現(xiàn)的:
步驟1,利用BLSTM對(duì)非結(jié)構(gòu)化文本提取單條樣本序列特征。
步驟2,利用條件隨機(jī)場(chǎng)和sigmoid(或者softmax)進(jìn)行單類(或者多類)命名實(shí)體標(biāo)注和分類,獲取多標(biāo)簽評(píng)分信息。
步驟3,利用專家規(guī)則和遠(yuǎn)程監(jiān)督方法獲取標(biāo)記語(yǔ)料和遠(yuǎn)程監(jiān)督語(yǔ)料。
步驟4,基于PU強(qiáng)化學(xué)習(xí),訓(xùn)練樣本選擇器,從標(biāo)記語(yǔ)料和遠(yuǎn)程監(jiān)督語(yǔ)料中篩選出正樣本和待還原負(fù)樣本。
步驟5,利用去噪還原器對(duì)有噪聲標(biāo)記的負(fù)樣本進(jìn)行重建還原得到還原樣本。
步驟6,引入能夠無偏、一致地估計(jì)任務(wù)損失的損失函數(shù),使用正樣本和還原樣本訓(xùn)練中文命名實(shí)體識(shí)別模型和PU強(qiáng)化學(xué)習(xí)模型。
步驟7,樣本選擇器根據(jù)任務(wù)損失更新參數(shù)后,接受中文命名實(shí)體識(shí)別模型處理后的標(biāo)記語(yǔ)料和遠(yuǎn)程監(jiān)督語(yǔ)料信息,然后決定再篩選標(biāo)記語(yǔ)料。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學(xué),未經(jīng)北京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110607269.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種呼吸機(jī)
- 下一篇:一種玻璃加工用充氣裝置及玻璃的充氣方法
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 用于提供遠(yuǎn)程幫助的方法和服務(wù)器
- 遠(yuǎn)程登錄會(huì)話維護(hù)方法、遠(yuǎn)程登錄代理和計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)
- 汽車遠(yuǎn)程控制裝置和方法
- 一種基于EMS系統(tǒng)的變電站遠(yuǎn)程監(jiān)控系統(tǒng)
- 遠(yuǎn)程控制終端、遠(yuǎn)程控制方法、遠(yuǎn)程受控終端和遠(yuǎn)程受控方法
- 對(duì)遠(yuǎn)程受控終端的受控方式進(jìn)行自定義的裝置及方法
- 一種基于互聯(lián)網(wǎng)的移動(dòng)遠(yuǎn)程醫(yī)療綜合服務(wù)系統(tǒng)
- 一種遠(yuǎn)程控制方法、裝置及存儲(chǔ)介質(zhì)
- 一種遠(yuǎn)程炒菜機(jī)、遠(yuǎn)程炒菜機(jī)系統(tǒng)及遠(yuǎn)程炒菜方法
- 一種計(jì)算機(jī)遠(yuǎn)程控制組件





