[發明專利]一種火力發電領域語料數據的實體分類方法及裝置有效
| 申請號: | 201811311803.3 | 申請日: | 2018-11-05 |
| 公開(公告)號: | CN109582787B | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 唐靜;彭一軒;解來甲 | 申請(專利權)人: | 遠光軟件股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/295 |
| 代理公司: | 北京天達知識產權代理事務所(普通合伙) 11386 | 代理人: | 李明里;龐許倩 |
| 地址: | 519085 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 火力發電 領域 語料 數據 實體 分類 方法 裝置 | ||
1.一種火力發電領域語料數據的實體分類方法,其特征在于,包括如下步驟:
對包含火力發電領域語料數據的待分類文本集合S進行初次分類,得到已成功分類文本集合S1和未成功分類文本集合S2;
所述初次分類包括:
1)建立用于分類的輸入數據;
輸入數據具體包括:
待分類文本集合S:{s1,s2,···,si,···,sm},其中,si為集合中的某條文本記錄,與設備實體中某一實體相對應,m為文本記錄的數量;
已登錄的實體設備列表N:{n1,n2,···,nj,···,nK},其中,nj為某個實體的類別編號,該類別由設備的一個或者多個名稱構成,K為實體設備列表總數;
2)對分類文本集合S中的待分類文本進行預處理;
為了消除對分類無用的多余信息,對待分類文本進行包括去除數字、字母、記錄拆分的預處理措施,使待分類文本更加簡潔;
3)對預處理后的文本集合S按照實體設備列表N進行分類;
通過對分類文本集合S:{s1,s2,···,si,···,sm}分類,得到成功分類文本集合S1和未成功分類文本集合S2;
已成功分類文本集合S1的文檔樣本空間為{Sn1:s11,s12,···;Snj:sj1,sj2,···;···;Snk:sk1,sk2,···},k為S1中的實體類別總數,Snj是屬于實體類別nj的文檔子集;
通過建立的備選新詞庫,提取所述未成功分類文本集合S2中的實體新詞,建立實體新詞列表E;
將實體新詞列表E中的實體新詞逐一與所述已成功分類文本集合S1進行實體對齊,得到實體對齊結果;
具體的對齊過程包括:
1)建立包含實體新詞列表E的文檔子集Se,Se∈S2;
2)計算所述文檔子集Se中實體新詞e到已成功分類文本集合S1中每個文檔子集Snj的距離d;
3)選取距離d最大值出現次數最多的文檔子集Snj,將對應的實體新詞e歸類到所述文檔子集Snj屬于的實體類別;
4)更新已成功分類文本集合S1的文檔子集Snj,重復上述過程,直至將文檔子集Se合并到文檔子集Snj;
根據得到的所述實體對齊結果,確定該實體新詞的實體類別。
2.根據權利要求1所述的實體分類方法,其特征在于,所述備選新詞庫的構建方法,包括:
建立領域詞庫候選詞集;
對所述領域詞庫候選詞集中的候選詞語進行量化;
對量化后的候選詞語進行閾值篩選后構成領域詞庫;
剔除所述領域詞庫中的通用詞語后構成備選新詞庫。
3.根據權利要求2所述的實體分類方法,其特征在于,所述建立領域詞庫候選詞集,包括:
對火力發電領域語料數據進行預處理;
將預處理后的語料數據進行子串切分得到子串;
對得到的所述子串進行詞語切分,構成領域詞庫的候選詞集。
4.根據權利要求2所述的實體分類方法,其特征在于,所述候選詞語的量化包括詞頻、內部凝固度、自由度和位置成詞概率的量化。
5.根據權利要求4所述的實體分類方法,其特征在于,所述閾值篩選中設置的閾值包括詞頻閾值、凝固度閾值和左、右連接詞信息熵閾值以及位置成詞概率閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于遠光軟件股份有限公司,未經遠光軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811311803.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





