[發(fā)明專利]一種火力發(fā)電領(lǐng)域語(yǔ)料數(shù)據(jù)的實(shí)體分類方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201811311803.3 | 申請(qǐng)日: | 2018-11-05 |
| 公開(kāi)(公告)號(hào): | CN109582787B | 公開(kāi)(公告)日: | 2020-10-20 |
| 發(fā)明(設(shè)計(jì))人: | 唐靜;彭一軒;解來(lái)甲 | 申請(qǐng)(專利權(quán))人: | 遠(yuǎn)光軟件股份有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/36;G06F40/295 |
| 代理公司: | 北京天達(dá)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11386 | 代理人: | 李明里;龐許倩 |
| 地址: | 519085 廣東*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 火力發(fā)電 領(lǐng)域 語(yǔ)料 數(shù)據(jù) 實(shí)體 分類 方法 裝置 | ||
本發(fā)明涉及一種火力發(fā)電領(lǐng)域語(yǔ)料數(shù)據(jù)的實(shí)體分類方法及裝置,屬于火力發(fā)電技術(shù)領(lǐng)域,方法包括,對(duì)包含火力發(fā)電領(lǐng)域語(yǔ)料數(shù)據(jù)的待分類文本集合S進(jìn)行初次分類,得到已成功分類文本集合S1和未成功分類文本集合S2;提取未成功分類文本集合S2中的實(shí)體新詞,建立實(shí)體新詞列表E;將實(shí)體新詞列表中的實(shí)體新詞逐一與已成功分類文本集合S1進(jìn)行實(shí)體對(duì)齊,確認(rèn)實(shí)體新詞的實(shí)體類別。本發(fā)明利用火力發(fā)電領(lǐng)域文本數(shù)據(jù),綜合采用無(wú)監(jiān)督專業(yè)詞匯發(fā)現(xiàn)算法和文本分類算法,實(shí)現(xiàn)對(duì)發(fā)電語(yǔ)料數(shù)據(jù)的實(shí)體分類,其所構(gòu)建的火力發(fā)電專業(yè)詞庫(kù)也可用于該領(lǐng)域內(nèi)文本數(shù)據(jù)挖掘的語(yǔ)料支撐。
技術(shù)領(lǐng)域
本發(fā)明涉及火力發(fā)電技術(shù)領(lǐng)域,尤其是一種火力發(fā)電領(lǐng)域語(yǔ)料數(shù)據(jù)的實(shí)體分類方法及裝置。
背景技術(shù)
作為典型的非/半結(jié)構(gòu)化數(shù)據(jù),對(duì)于文本數(shù)據(jù)的處理一直是數(shù)據(jù)挖掘的熱點(diǎn)之一。
對(duì)火力發(fā)電領(lǐng)域的文本數(shù)據(jù)分析挖掘?qū)τ诨鹆Πl(fā)電企業(yè)定期的缺陷盤(pán)點(diǎn),以及企業(yè)長(zhǎng)遠(yuǎn)的信息化建設(shè)的企業(yè)知識(shí)圖譜的構(gòu)建,輔助企業(yè)從全局層面了解生產(chǎn)設(shè)備的運(yùn)行和健康狀況、進(jìn)行多維數(shù)據(jù)融合及深層知識(shí)的挖掘具有重要意義。
目前,對(duì)于火力發(fā)電領(lǐng)域的文本數(shù)據(jù)分析挖掘尚處于起步階段。主要原因在于,火力發(fā)電領(lǐng)域所積累的文檔數(shù)據(jù)尚未建立完備的語(yǔ)料庫(kù),在語(yǔ)料庫(kù)不充分的情況下,許多統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法難奏效。利用自然語(yǔ)言處理的方法很難從文本中挖掘出具有顯著性意義的結(jié)果。
發(fā)電企業(yè)對(duì)日常操作記錄文檔主要有值班日志和缺陷記錄。在對(duì)發(fā)電語(yǔ)料數(shù)據(jù)進(jìn)行實(shí)體分類時(shí),由于在日常記錄中設(shè)備的名稱可能由于個(gè)人用語(yǔ)習(xí)慣不同而有表述上的差異,使得利用標(biāo)準(zhǔn)的設(shè)備名稱進(jìn)行分類時(shí)無(wú)法將相應(yīng)的記錄進(jìn)行正確地歸類。
發(fā)明內(nèi)容
鑒于上述的分析,本發(fā)明旨在提供一種火力發(fā)電領(lǐng)域語(yǔ)料數(shù)據(jù)的實(shí)體分類方法及裝置,將基于統(tǒng)計(jì)的新詞識(shí)別方法和分類算法相結(jié)合,實(shí)現(xiàn)對(duì)發(fā)電文本語(yǔ)料數(shù)據(jù)的實(shí)體分類。
本發(fā)明的目的主要是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
一種火力發(fā)電領(lǐng)域語(yǔ)料數(shù)據(jù)的實(shí)體分類方法,包括如下步驟:
對(duì)包含火力發(fā)電領(lǐng)域語(yǔ)料數(shù)據(jù)的待分類文本集合S進(jìn)行初次分類,得到已成功分類文本集合S1和未成功分類文本集合S2;
通過(guò)建立的備選新詞庫(kù),提取所述未成功分類文本集合S2中的實(shí)體新詞,建立實(shí)體新詞列表E;
將實(shí)體新詞列表E中的實(shí)體新詞逐一與所述已成功分類文本集合S1 進(jìn)行實(shí)體對(duì)齊,得到實(shí)體對(duì)齊結(jié)果;
根據(jù)得到的所述實(shí)體對(duì)齊結(jié)果,確定該實(shí)體新詞的實(shí)體類別。
進(jìn)一步地,所述備選新詞庫(kù)的構(gòu)建方法,包括:
建立領(lǐng)域詞庫(kù)候選詞集;
對(duì)所述領(lǐng)域詞庫(kù)候選詞集中的候選詞語(yǔ)進(jìn)行量化;
對(duì)量化后的候選詞語(yǔ)進(jìn)行閾值篩選后構(gòu)成領(lǐng)域詞庫(kù);
剔除所述領(lǐng)域詞庫(kù)中的通用詞語(yǔ)后構(gòu)成備選新詞庫(kù)。
進(jìn)一步地,所述建立領(lǐng)域詞庫(kù)候選詞集,包括:
對(duì)火力發(fā)電領(lǐng)域語(yǔ)料數(shù)據(jù)進(jìn)行預(yù)處理;
將預(yù)處理后的語(yǔ)料數(shù)據(jù)進(jìn)行子串切分得到子串;
對(duì)得到的所述子串進(jìn)行詞語(yǔ)切分,構(gòu)成領(lǐng)域詞庫(kù)的候選詞集。
進(jìn)一步地,所述候選詞語(yǔ)的量化包括詞頻、內(nèi)部凝固度、自由度和位置成詞概率的量化。
進(jìn)一步地,所述閾值篩選中設(shè)置的閾值包括詞頻閾值、凝固度閾值和左、右連接詞信息熵閾值以及位置成詞概率閾值。
進(jìn)一步地,所述初次分類,包括,
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于遠(yuǎn)光軟件股份有限公司,未經(jīng)遠(yuǎn)光軟件股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811311803.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 火力發(fā)電廠的控制裝置以及控制方法
- 火力發(fā)電單元機(jī)組協(xié)調(diào)控制方法和系統(tǒng)
- 一種利用太陽(yáng)能光伏發(fā)電降低火力發(fā)電廠廠用電率的方法
- 一種火力發(fā)電機(jī)組凝結(jié)水溶解氧量超標(biāo)治理方法
- 風(fēng)力發(fā)電與火力發(fā)電機(jī)組群的負(fù)荷協(xié)調(diào)控制系統(tǒng)及方法
- 火力發(fā)電廠機(jī)組負(fù)荷分配方法及裝置
- 火力發(fā)電廠高溫高壓蒸汽加熱熔鹽儲(chǔ)能系統(tǒng)
- 一種火力發(fā)電機(jī)智能風(fēng)險(xiǎn)防控系統(tǒng)
- 一種火力發(fā)電系統(tǒng)啟動(dòng)方法及相關(guān)設(shè)備
- 勵(lì)磁機(jī)(WLQ130-3000)
- 一種語(yǔ)料提取器及提取語(yǔ)料的方法
- 軍事信息語(yǔ)料庫(kù)構(gòu)建方法及系統(tǒng)
- 待標(biāo)注語(yǔ)料的分配方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 語(yǔ)料泛化方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語(yǔ)料數(shù)據(jù)的處理方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備
- 一種擴(kuò)展語(yǔ)料挖掘方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 語(yǔ)料生成方法、語(yǔ)料生成裝置、和存儲(chǔ)介質(zhì)
- 短語(yǔ)語(yǔ)料獲取方法及短語(yǔ)語(yǔ)料獲取裝置
- 一種語(yǔ)料分類方法、裝置及服務(wù)器
- 一種輸入方法、裝置和電子設(shè)備
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





