[發(fā)明專利]一種基于主動學(xué)習(xí)的電力預(yù)案文本標(biāo)注方法在審
| 申請?zhí)枺?/td> | 202010891711.8 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112232063A | 公開(公告)日: | 2021-01-15 |
| 發(fā)明(設(shè)計(jì))人: | 楊群;袁鑫;劉紹翰 | 申請(專利權(quán))人: | 南京航空航天大學(xué) |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/289;G06K9/62;G06N3/04;G06N3/08;G06Q50/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 211106 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 主動 學(xué)習(xí) 電力 預(yù)案 文本 標(biāo)注 方法 | ||
本發(fā)明公開一種基于主動學(xué)習(xí)的電力預(yù)案文本標(biāo)注方法。方法包括:針對電力預(yù)案文本的預(yù)聚類方法,用于將原始電力預(yù)案文本數(shù)據(jù)進(jìn)行分類,使類中數(shù)據(jù)呈現(xiàn)語句結(jié)構(gòu)和字詞上的相似性;針對電力預(yù)案文本序列標(biāo)注的主動學(xué)習(xí)樣本選擇策略,策略參考樣本的信息性和代表性,可用于迭代時(shí)挑選出最合適的樣本交予人工標(biāo)注并加入訓(xùn)練集,以最大化提升模型的性能;針對電力預(yù)案文本序列標(biāo)注的神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果結(jié)構(gòu)化輸出方法,可結(jié)構(gòu)化輸出模型對文本的預(yù)測標(biāo)簽和各標(biāo)簽的概率,該概率可用于挑選新樣本。采用本發(fā)明后只需使用一半的數(shù)據(jù)集即可達(dá)成與使用完整數(shù)據(jù)集一樣的模型訓(xùn)練效果,減少了標(biāo)注數(shù)據(jù)所需的人力物力。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理、深度學(xué)習(xí)以及主動學(xué)習(xí)領(lǐng)域,特別是涉及一種針對電力預(yù)案分析的文本序列標(biāo)注技術(shù)。
背景技術(shù)
傳統(tǒng)的電網(wǎng)調(diào)度系統(tǒng)依賴于管制員的主觀決策,工作強(qiáng)度大,對調(diào)度員可靠性要求高。與調(diào)度員相比,計(jì)算機(jī)的運(yùn)行速度快、實(shí)時(shí)性高、存儲容量大、可靠性高。而調(diào)度員所能夠承擔(dān)的工作強(qiáng)度小、持續(xù)時(shí)間短、反應(yīng)速度慢、記憶容量有限,效率不穩(wěn)定,可靠性易受環(huán)境影響。電力系統(tǒng)的迅速發(fā)展,使得調(diào)度員的工作強(qiáng)度變大、工作時(shí)間延長,從而導(dǎo)致調(diào)度員工作疲勞,容易發(fā)出不當(dāng)調(diào)度指令。如果通過機(jī)器輔助調(diào)度員進(jìn)行管理,將有效提高系統(tǒng)的性能和可靠性,這對減少安全事故具有重大和迫切的現(xiàn)實(shí)意義。
現(xiàn)有調(diào)度自動化系統(tǒng)中沉淀著大量的告警信息、事故報(bào)告以及設(shè)備狀態(tài)信息。研究人員圍繞這些信息開展數(shù)據(jù)分析,通常是采用統(tǒng)計(jì)分析、遺傳算法等傳統(tǒng)人工智能方法的方法。基于大數(shù)據(jù)的深度學(xué)習(xí)最近在人工智能領(lǐng)域取得重大突破,并在語音識別、自然語言處理、計(jì)算機(jī)視覺等諸多領(lǐng)域取得了巨大成功。采用模式識別和機(jī)器學(xué)習(xí)算法,結(jié)合文本聚類或者文本分類算法,使得從多角度和多粒度上分析電網(wǎng)故障事件之間的關(guān)聯(lián)關(guān)系成為可能。
電力預(yù)案是根據(jù)以往在電網(wǎng)運(yùn)行中發(fā)生故障后調(diào)度員的處理經(jīng)驗(yàn)而編制的故障處置手冊。為有效管理和利用預(yù)案,首先需要將預(yù)案文本中包含的我們感興趣的信息,例如地名、故障和處置方式等,提取出來,再進(jìn)一步存儲、分析和利用。抽取一段文本序列感興趣的信息屬于自然語言處理中序列標(biāo)注問題。
序列標(biāo)注模型需要大量預(yù)標(biāo)注的數(shù)據(jù)用于訓(xùn)練,然而,由于電力預(yù)案文本數(shù)據(jù)規(guī)模很大且高度專業(yè)化,人工標(biāo)注需要具備豐富的領(lǐng)域知識且工作量巨大。主動學(xué)習(xí)是一種快速訓(xùn)練模型的方法,只使用少量樣本即可達(dá)成與大量樣本相同的標(biāo)注模型訓(xùn)練效果。因此,本發(fā)明即能找到當(dāng)前最具代表性和信息性的訓(xùn)練數(shù)據(jù)用于訓(xùn)練標(biāo)注模型,提高標(biāo)注效率。該方法主要分為選擇模塊和學(xué)習(xí)模塊,選擇模塊的目的是找出當(dāng)前最具代表性和信息性的訓(xùn)練數(shù)據(jù),學(xué)習(xí)模塊則是通過選擇模塊選出的數(shù)據(jù)不斷提高分類器的分類準(zhǔn)確性和魯棒性。目前主動學(xué)習(xí)已在命名實(shí)體識別、社交媒體數(shù)據(jù)、空間數(shù)據(jù)標(biāo)注、圖像分類等方向取得了良好的成效。
發(fā)明內(nèi)容
1、一種基于主動學(xué)習(xí)的電力預(yù)案文本標(biāo)注方法,其特征在于,所述主動學(xué)習(xí)方法包括:
對獲取到的電力預(yù)案文本進(jìn)行預(yù)聚類;
從聚類后的數(shù)據(jù)中選擇出待標(biāo)注的樣本;
將神經(jīng)網(wǎng)絡(luò)模型對數(shù)據(jù)的預(yù)測結(jié)果進(jìn)行結(jié)構(gòu)化輸出;
2、根據(jù)權(quán)利要求1所述的基于主動學(xué)習(xí)的電力預(yù)案文本標(biāo)注方法,其特征在于,針對電力預(yù)案文本數(shù)據(jù)的預(yù)聚類技術(shù),具體包括:
通過專家人工整理,挑選出電力領(lǐng)域?qū)S性~匯,建立電力預(yù)案數(shù)據(jù)專屬詞典;
根據(jù)專屬詞典生成文本數(shù)據(jù)的特征向量;
將特征向量作為聚類算法的輸入,進(jìn)行聚類。
3、根據(jù)權(quán)利要求1所述的基于主動學(xué)習(xí)的電力預(yù)案文本標(biāo)注方法,其特征在于,針對電力預(yù)案文本的主動學(xué)習(xí)的樣本迭代策略,具體包括:
依照詞袋最大化的標(biāo)準(zhǔn),在聚類后得到的各簇中等比例的抽樣選擇出最初的種子集;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京航空航天大學(xué),未經(jīng)南京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010891711.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- 電力控制器、電力生成系統(tǒng)以及電力控制器的控制方法
- 電力供給裝置、電力接收裝置和包括電力接收裝置的車輛以及用于電力供給系統(tǒng)的控制方法
- 電力接收裝置、電力傳送裝置及其控制方法
- 一種智能電力客服系統(tǒng)的構(gòu)建方法及系統(tǒng)
- 無線電力傳輸系統(tǒng)、無線電力發(fā)送裝置和無線電力接收裝置
- 一種電力監(jiān)控平臺數(shù)據(jù)信息映射匹配方法及系統(tǒng)
- 用于電力分配的系統(tǒng)和方法
- 電力傳輸裝置、電力接收裝置和電力傳輸裝置的控制方法
- 一種電力傳輸線圈無線傳輸電力的無線電力傳輸系統(tǒng)
- 一種電力運(yùn)行數(shù)據(jù)監(jiān)控系統(tǒng)





