[發明專利]一種文本數據分類與信息挖掘方法有效
| 申請號: | 201910481105.6 | 申請日: | 2019-06-04 |
| 公開(公告)號: | CN110222180B | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 魯玥;王玉;曲皓;張逍玉;孔祥智 | 申請(專利權)人: | 江南大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 林娟 |
| 地址: | 214000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 數據 分類 信息 挖掘 方法 | ||
1.一種文本數據分類與信息挖掘方法,其特征在于,所述方法包括:
S1:建立不同層級不同類別的關鍵詞庫,并根據關鍵詞庫確定每條文本數據對應的文本特征向量;為描述方便,假設第i條文本數據所含總關鍵詞數為ni、總類別個數為k、所含第j類關鍵詞的數目為mij,則第i條文本數據的特征向量為[mi1,mi2···,mij···mik];
S2:根據S1建立好的關鍵詞庫,基于分層模糊分類的方法對各條文本數據進行分類,分類過程中,計算每條文本數據對各類的隸屬度;第i條文本數據對第j類的隸屬度其中mij表示第i條文本數據所含第j類關鍵詞的數目;根據隸屬度將各條文本數據模糊分類至對應的類別;
S3:選取隸屬度差異化大的文本數據作為可靠個體,通過支持向量機的訓練得到訓練函數;定義第i條文本數據的隸屬度差異化系數為:
定義差異化系數的閾值λ;
當βi≥λ時,稱該個體隸屬度差異大,為可靠個體,作為支持向量機的訓練數據,
當βi<λ時,稱該個體隸屬度差異小,為不可靠個體;
S4:采用訓練好的支持向量機訓練函數對待分類的文本數據進行分類。
2.根據權利要求1所述的方法,其特征在于,所述S3中支持向量機如下:
選取高斯核函數(xi,yi)表示訓練數據,xi表示訓練數據的輸入,yi表示對應的輸出,αi表示Lagrange乘子;n為訓練數據個數;
取某個αj>0對應的樣本:訓練支持向量機,得到決策函數:
3.根據權利要求2所述的方法,其特征在于,所述S1之前,還包括文本預處理,得到離散化后的數據文本。
4.根據權利要求3所述的方法,其特征在于,所述文本預處理,得到離散化后的數據文本包括:根據NLPIR漢語分詞系統對每條文本分詞,利用已有停用詞詞典去停用詞,得到離散化后的數據文本。
5.根據權利要求4所述的方法,其特征在于,所述S1之前,還包括根據已有文本數據確定不同層級不同類別的關鍵詞庫所包含的關鍵詞。
6.根據權利要求5所述的方法,其特征在于,所述方法應用于12345市長熱線文本數據的分類。
7.根據權利要求6所述的方法,其特征在于,所述12345市長熱線文本數據的分類中,設置至少兩個層級。
8.根據權利要求7所述的方法,其特征在于,當設置為兩個層級時,第一層是性質類別,第二層是職能類別。
9.根據權利要求8所述的方法,其特征在于,所述性質類別包括咨詢和投訴兩類,其中咨詢一類包括經濟違法和社會服務中的至少兩項;投訴一類包括行政職能和民生投訴、法制投訴、消費維權中的至少兩項。
10.權利要求1-5任一所述的方法在文本分類領域內的應用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江南大學,未經江南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910481105.6/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





