[發明專利]一種基于粒度計算的信息分類方法在審
| 申請號: | 201910547137.1 | 申請日: | 2019-06-24 |
| 公開(公告)號: | CN110442708A | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 肖清林 | 申請(專利權)人: | 廈門美域中央信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06Q50/26;G06F16/951 |
| 代理公司: | 北京勁創知識產權代理事務所(普通合伙) 11589 | 代理人: | 王志敏 |
| 地址: | 361008 福建省廈門市軟件園*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 粒度計算 詞匯集合 信息分類 目標類別 權重 詞匯 分類準確度 詞性標注 詞義標注 分詞處理 分類效率 獲取信息 預先存儲 類目 省時 預設 省力 匹配 概率 優化 | ||
一種基于粒度計算的信息分類方法,包括以下步驟:獲取信息;進行分詞處理并獲得詞匯集合;進行詞性標注和詞義標注;根據預先存儲的各類別信息,從詞匯集合中獲得與其相匹配的類別詞匯;基于粒度計算確定詞匯集合中的每一個類別詞匯的權重;確定詞匯集合中包含的所有類別詞匯所屬的目標類別信息;基于粒度計算確定每一個目標類別信息的權重;根據每一個目標類別信息的權重,確定該信息所屬的至少一個類目;判斷該信息與各所屬類目的概率是否大于預設閾值。本發明基于粒度計算來進行信息分類,優化了信息分類方法,操作簡便,分類效率高,分類準確度高,省時省力。
技術領域
本發明涉及信息分類技術領域,尤其涉及一種基于粒度計算的信息分類方法。
背景技術
伴隨信息技術的飛速發展,特別是移動通信技術和計算機互聯網技術飛速發展,移動通信網絡已經發生了革命性的變革,信息中蘊含著巨大的信息內容和價值,面對信息的數據量增長等問題,人們提出了對信息進行分類的需求,以便對分類后的信息或與信息相對應的對象進行處理和分析,現有技術中,對信息的分類方法主要是更具人工定義好特定的短信模版,然后建立正則表達式處理,結構化出所需數據項,并對模版進行數據集的分類,具體來說,對信息的分類方法主要有兩種,一種是根據關鍵詞進行判斷,即首先人工的對所有信息進行歸類,然后在對每類信息提取特定的關鍵詞作為入此數據集的標識,但是上述方法中,不同數據集的信息有可能都會匹配到同一個或一組關鍵詞,造成分類不準確,另一種方法是對每個信息定義正則表達式,并對每一條正則表達式定義數據集,即為每一個信息都進行一次分類,但是上述方法中,需要對每一個信息定義正則表達式,隨著信息量的不斷增加,工作量激增,分類的效率不高;
但是現有的信息分類方法操作復雜,信息分類效率低,分類準確度低。
發明內容
(一)發明目的
為解決背景技術中存在的技術問題,本發明提出一種基于粒度計算的信息分類方法,基于粒度計算來進行信息分類,優化了信息分類方法,操作簡便,分類效率高,分類準確度高,省時省力。
(二)技術方案
為解決上述問題,本發明提出了一種基于粒度計算的信息分類方法,包括以下步驟:
S1、獲取信息;
S2、對獲取的信息進行分詞處理,并獲得詞匯集合;
S3、對詞匯集合中的詞語進行詞性標注和詞義標注;
S4、根據預先存儲的各類別信息,從詞匯集合中獲得與其相匹配的類別詞匯;
S5、基于粒度計算確定詞匯集合中的每一個類別詞匯的權重;
S6、根據預先存儲的各類別信息中各類別詞匯的關聯關系,確定詞匯集合中包含的所有類別詞匯所屬的目標類別信息;
S7、根據目標類別信息和詞匯集合中每一個類別詞匯的權重,基于粒度計算確定每一個目標類別信息的權重;
S8、根據每一個目標類別信息的權重,確定該信息所屬的至少一個類目;
S9、判斷該信息與各所屬類目的概率是否大于預設閾值;
若大于預設閾值,則將該信息分入指定類目下;若不大于預設閾值,則不將該信息分入指定類目下。
優選的,在S1中,信息的獲取方式為爬蟲獲取、網上下載或批量導入。
優選的,在S2中,通過jieba工具對信息進行分詞處理。
優選的,在S5中,權重用于表示網絡信息與相應類別詞匯的關聯程度。
優選的,在S5中,其具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門美域中央信息科技有限公司,未經廈門美域中央信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910547137.1/2.html,轉載請聲明來源鉆瓜專利網。





