[發明專利]一種電力調度文本的處理方法及系統在審
| 申請號: | 202010093154.5 | 申請日: | 2020-02-14 |
| 公開(公告)號: | CN111382227A | 公開(公告)日: | 2020-07-07 |
| 發明(設計)人: | 季曉慧;李晨;劉金波;狄方春 | 申請(專利權)人: | 中國地質大學(北京) |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F40/242;G06F40/289;G06Q10/06;G06Q50/06 |
| 代理公司: | 北京知呱呱知識產權代理有限公司 11577 | 代理人: | 盛明星 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電力 調度 文本 處理 方法 系統 | ||
1.一種電力調度文本的處理方法,其特征在于,所述方法包括:
采集調度文本,并對所述調度文本進行分詞處理,以得到所述調度文本對應的詞匯集合;
識別所述詞匯集合中的頻繁一項集,并基于所述頻繁一項集構建頻繁模式樹;
從所述頻繁模式樹中獲取條件模式基,并基于所述條件模式基遞歸得到所述詞匯集合中的頻繁項集。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
檢測分詞處理結果中的停用詞,并將檢測得到的所述停用詞從分詞處理結果中剔除。
3.根據權利要求1所述的方法,其特征在于,基于所述頻繁一項集構建頻繁模式樹包括:
掃描所述詞匯集合,并統計各個頻繁一項集支持度;
按照統計的支持度從各個所述頻繁一項集中篩選出目標頻繁一項集,并將所述目標頻繁一項集放入項頭表中,其中,所述項頭表中的目標頻繁一項集按照支持度降序排列;
在所述詞匯集合中,將非頻繁一項集的數據刪除,并將剩余的數據按照頻繁一項集的支持度降序排列;
讀取排序后的數據,并將排序后的數據插入頻繁模式樹;其中,在所述頻繁模式樹中排序靠前的節點為祖先節點,排序靠后的節點為子孫節點。
4.根據權利要求3所述的方法,其特征在于,所述方法還包括:
若多個子孫節點共用同一個祖先節點,按照子孫節點的數量,增加共用的祖先節點的計數;
若在將排序后的數據插入頻繁模式樹時出現新的節點,將項頭表對應的節點通過節點鏈表鏈接上所述新的節點。
5.根據權利要求1所述的方法,其特征在于,基于所述條件模式基遞歸得到所述詞匯集合中的頻繁項集包括:
S100:從項頭表的底部項依次向上找到項頭表項對應的條件模式基;
S200:利用所述條件模式基,構建條件頻繁模式樹;
S300:迭代執行步驟S100和S200,直至構建的條件頻繁模式樹中僅包含一個元素項為止;
S400:將步驟S300得到的頻繁項集作為遞歸得到的所述詞匯集合中的頻繁項集。
6.根據權利要求5所述的方法,其特征在于,所述方法還包括:
預先設置項數閾值,并在步驟S300得到的頻繁項集中篩選出項數大于或者等于所述項數閾值的頻繁項集,并將篩選得到的頻繁項集作為遞歸得到的所述詞匯集合中的頻繁項集。
7.一種電力調度文本的處理系統,其特征在于,所述系統包括:
文本處理單元,用于采集調度文本,并對所述調度文本進行分詞處理,以得到所述調度文本對應的詞匯集合;
頻繁模式樹構建單元,用于識別所述詞匯集合中的頻繁一項集,并基于所述頻繁一項集構建頻繁模式樹;
頻繁項集獲取單元,用于從所述頻繁模式樹中獲取條件模式基,并基于所述條件模式基遞歸得到所述詞匯集合中的頻繁項集。
8.根據權利要求7所述的系統,其特征在于,所述頻繁模式樹構建單元包括:
支持度統計模塊,用于掃描所述詞匯集合,并統計各個頻繁一項集支持度;
篩選模塊,用于按照統計的支持度從各個所述頻繁一項集中篩選出目標頻繁一項集,并將所述目標頻繁一項集放入項頭表中,其中,所述項頭表中的目標頻繁一項集按照支持度降序排列;
降序排列模塊,用于在所述詞匯集合中,將非頻繁一項集的數據刪除,并將剩余的數據按照頻繁一項集的支持度降序排列;
頻繁模式樹生成模塊,用于讀取排序后的數據,并將排序后的數據插入頻繁模式樹;其中,在所述頻繁模式樹中排序靠前的節點為祖先節點,排序靠后的節點為子孫節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(北京),未經中國地質大學(北京)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010093154.5/1.html,轉載請聲明來源鉆瓜專利網。





