[發明專利]一種特種設備輿情分類方法在審
| 申請號: | 202110030059.5 | 申請日: | 2021-01-11 |
| 公開(公告)號: | CN112699674A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 陳樹芳;李娟;劉麗梅;薛慶;李磊 | 申請(專利權)人: | 山東特檢魯安工程技術服務有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/44;G06Q50/00 |
| 代理公司: | 濟南格源知識產權代理有限公司 37306 | 代理人: | 韓洪淼 |
| 地址: | 250010 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特種設備 輿情 分類 方法 | ||
1.一種特種設備輿情分類方法,其特征在于如下步驟:
獲取輿情文本,對輿情文本進行校驗、拆分、向量化轉化為詞向量;
對詞向量進行分類預測獲得輿情相關的特種設備類別。
2.根據權利要求1所述的特種設備輿情分類方法,其特征是:
對輿情文本進行校驗時,判斷輿情文本是否存在缺失值和異常值,進行輿情文本數據補充或剔除。
3.根據權利要求1所述的特種設備輿情分類方法,其特征是:
輿情文本拆分是通過對校驗后的輿情文本進行分詞、過濾詞停用詞獲得多個輿情數據詞表,
輿情文本分詞時,基于前綴詞典實現詞圖掃描,生成句子中漢字所有可能成詞情況,進而生成有向無環圖,采用動態規劃查找最大概率路徑,找出基于詞頻的最大切分組合,對于未登錄詞,采用基于漢字成詞能力的隱馬爾可夫模型;
過濾詞停用,用于實現文本數據中噪聲過濾,通過停用詞庫來實現,結合特種設備應用領域選擇合適的停用詞庫。
4.根據權利要求3所述的特種設備輿情分類方法,其特征是:
向量化時,針對分詞和過濾詞停用后的輿情數據詞表,不考慮每個詞出現的順序,只將每個詞出現的頻次vi進行統計,構成一個特征向量V={v1,v2,...,vn},作為輿情文本特征,其中n為輿情數據詞表維數。
匯集每一條輿情文本的特征向量V為n維輸入空間:
X={V1,V2,...,VN}
其中N為輿情樣本數據數量;
設置8個特種設備分類和1個其他分類共計9個類別,分類空間表示為C={c1,c2,...,c9},則輿情數據集可表示為:
5.根據權利要求4所述的特種設備輿情分類方法,其特征是:分類預測時,首先根據
獲得每個類別的后驗概率;再根據下述公式獲得最大后驗概率
進而選擇最大后驗概率作為所屬特種設備種類。
6.根據權利要求3所述的特種設備輿情分類方法,其特征是:對獲得的輿情數據表應用WordCloud庫生成詞云進行展示。
7.根據權利要求3所述的特種設備輿情分類方法,其特征是:進行分詞時,采用句子劃分、可成詞的詞語劃分、長詞切分劃分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東特檢魯安工程技術服務有限公司,未經山東特檢魯安工程技術服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110030059.5/1.html,轉載請聲明來源鉆瓜專利網。





