[發(fā)明專利]一種基于電價政策的文本處理方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011468350.2 | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112395878A | 公開(公告)日: | 2021-02-23 |
| 發(fā)明(設(shè)計)人: | 鄭福康;陳正飛;王嘉豪 | 申請(專利權(quán))人: | 深圳供電局有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F16/335;G06N3/04;G06N3/08;G06Q50/06 |
| 代理公司: | 深圳匯智容達專利商標事務(wù)所(普通合伙) 44238 | 代理人: | 熊賢卿 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 電價 政策 文本 處理 方法 系統(tǒng) | ||
1.一種基于電價政策的文本處理方法,其特征在于,包括以下步驟:
步驟S10、從預定的網(wǎng)站上通過爬取獲得電價政策材料,經(jīng)過格式轉(zhuǎn)換后,形成電價政策文本,并進行清洗;
步驟S11、根據(jù)清洗后的電價政策文本、基于相似度原理以及預設(shè)定閾值,對電價政策文本進行去重處理;
步驟S12、對去重后的電價政策文本進行分詞預處理,所述預處理包括基于分詞去除停用詞、去除無效值;
步驟S13、根據(jù)分詞后的文本獲得一組詞匯,計算所有詞匯的TF-IDF值,以及分詞后的詞性,確定所述詞匯中的候選詞;
步驟S14、使用word2vec模型對上一步驟的所有電價政策文本的候選詞數(shù)據(jù)進行訓練,得到電價政策文本詞向量;
步驟S15、將文檔所有詞匯向量相加后求詞平均值,得到文檔的向量化表示,根據(jù)文檔的向量化表示確定所需的電價政策文本。
2.如權(quán)利要求1所述的方法,其特征在于,所述步驟S10進一步包括:
對經(jīng)過格式轉(zhuǎn)換后的電價政策材料進行清洗操作,以去除其中的特殊字符、符號、多余的換行符以及空格。
3.如權(quán)利要求2所述的方法,其特征在于,所述步驟S11中采用向量空間模型算法對電價政策文本進行去重處理,具體包括:
將候選詞個數(shù)n作為向量的維數(shù),每個候選詞的權(quán)值為w,候選詞出現(xiàn)的頻率為x,通過下式計算主題向量α和文本向量β的夾角余弦來表示文本的主題相關(guān)度:
將計算結(jié)果與設(shè)定閾值進行比較,若計算結(jié)果大于設(shè)定閾值,則認定所述文本與主題相關(guān),否則認定為不相關(guān);根據(jù)相關(guān)性進行去重處理。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟S12進一步包括:
步驟S120,對電價文本進行分詞預處理,將電價政策文本的正文內(nèi)容部分通過python的第三方庫pandas讀入,形成dataframe格式數(shù)據(jù);
步驟S121,將所述dataframe格式數(shù)據(jù)轉(zhuǎn)化為字符串列表L0,按行讀取字符串列表L0并調(diào)用python的第三方庫jieba實現(xiàn)中文分詞,在分詞前加載電價政策領(lǐng)域詞典,得到分詞后的字符串列表L1;
步驟S122,根據(jù)預先形成的停用詞表去除字符串列表L1中高頻出現(xiàn)的連詞、代詞和介詞,讀出所述L1中的所有不重復詞匯,生成電價政策詞匯詞典L2。
5.根據(jù)權(quán)利要求1至4任一項所述的方法,其特征在于,所述步驟S13進一步包括:
步驟S130,根據(jù)結(jié)巴詞庫的解析方法獲得文本中每一詞匯的詞性,過濾掉其中介詞、連詞、以及無法判斷詞性的詞匯;
步驟S131,統(tǒng)計文本中其他詞語的的頻率TF、逆文檔頻率IDF,計算獲得每個詞匯的TF-IDF值,建立基于TF-IDF的詞典;對于每個文本,保留TF-IDF值排序處于預定范圍的詞語,確定為候選詞,其中,預定范圍為處于前70%-90%。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述步驟S14進一步包括:
步驟S140,通過one-hot方法將詞匯詞典的所述候選詞匯建立詞匯索引;
步驟S141,將所述候選詞與詞匯字典選詞中的相同詞匯進行映射得到每篇文檔的詞匯索引;
步驟S142,選取預定窗口大小構(gòu)建訓練數(shù)據(jù)集,并設(shè)置詞向量維數(shù);對每個訓練數(shù)據(jù)集內(nèi)詞匯進行負采樣訓練,讀出訓練結(jié)束后的權(quán)重矩陣,獲得電價政策文本詞向量文件。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述步驟S15進一步包括:
步驟S150,將預處理后的字符串列表所述與每一篇文檔的標簽映射得到映射后的數(shù)組;
步驟S151,將數(shù)組中的詞匯與詞向量文件建立映射,得到文檔的詞向量數(shù)組;將所述組數(shù)中在訓練詞匯詞典中未出現(xiàn)的詞匯用零向量表示;
步驟S152,將每一篇文檔分別求詞平均值,得到文本向量;
步驟S153,根據(jù)文檔的向量確定所需的電價政策文本。
8.一種基于電價政策的文本處理系統(tǒng),其包括:一個或多個處理器、一個或多個輸入設(shè)備、一個或多個輸出設(shè)備和存儲器,上述處理器、輸入設(shè)備、輸出設(shè)備和存儲器通過總線相互連接。存儲器用于存儲計算機程序,所述計算機程序包括程序指令,其特征在于,所述處理器被配置用于調(diào)用所述程序指令執(zhí)行如權(quán)利要求1至7任一項所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳供電局有限公司,未經(jīng)深圳供電局有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011468350.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 電力管理系統(tǒng)和控制電力管理系統(tǒng)的方法
- 銷售電價數(shù)據(jù)的存儲方法及裝置
- 一種交易電價預測方法及裝置
- 基于大數(shù)據(jù)的多元交易能源協(xié)調(diào)優(yōu)化方法和裝置
- 電價關(guān)聯(lián)方法及裝置
- 一種電價預測方法、系統(tǒng)和計算機可讀存儲介質(zhì)
- 一種電價統(tǒng)計方法、系統(tǒng)、可讀存儲介質(zhì)及計算設(shè)備
- 一種基于圖傳播的電力用戶電價響應(yīng)行為刻畫方法和系統(tǒng)
- 基于量子免疫優(yōu)化BP神經(jīng)網(wǎng)絡(luò)算法的電價預測方法
- 電價查詢系統(tǒng)及電價查詢方法





