[發明專利]一種文本數據分類與信息挖掘方法有效
| 申請號: | 201910481105.6 | 申請日: | 2019-06-04 |
| 公開(公告)號: | CN110222180B | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 魯玥;王玉;曲皓;張逍玉;孔祥智 | 申請(專利權)人: | 江南大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 林娟 |
| 地址: | 214000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 數據 分類 信息 挖掘 方法 | ||
本發明公開了一種文本數據分類與信息挖掘方法,屬于計算機技術領域。本發明通過利用根據實際數據建立的關鍵詞庫,使得文本特征向量的維數大大降低、信息集中,克服了文本大數據處理過程中高維?稀疏的問題,便于支持向量機算法的實現。同時定義了隸屬度差異化系數來選取可靠個體,以增強文本分類的準確性。進一步的,本發明在訓練支持向量機之前,利用兩層模糊分類初步得到其類別,無需提前獲知訓練數據的類別對于12345熱線文本數據,本申請還提出了針對不同類別利用群體智能的方法對分類后的問題文本給出解決方案,能充分調動不同領域的專業人士給予解答。
技術領域
本發明涉及一種文本數據分類與信息挖掘方法,屬于計算機技術領域。
背景技術
文本分類是自然語言處理領域中一個很重要的問題,廣泛應用于垃圾信息過濾、用戶評論情感傾向識別、用戶查詢意圖識別、新聞分類等。目的在于更好的提取文本中所含的共同信息,發掘規律特性,提高文本進一步處理的效率。
比如與人們日常生活密切相關的12345市長熱線的文本數據分類,通過分類更好的將人民群眾反映的大量問題進行總結,由專業人員給出準確而又統一的答案,形成知識庫,避免了政府人員工作的重復,提高工作效率;通過分類還可以獲取不同地區不同類別的信息數量,從而對地區的發展和各方面存在的問題有一個整體上的把握,針對突出和亟待解決的問題給出解決方案,提高地區的發展和人民的幸福指數。
現有的文本分類方法存在著高維-稀疏的問題,其訓練樣本可靠性較差必然導致其分類不準確,且通常需要獲取一些已分類文本,比如申請號為CN201710356683.8的專利申請公開了一種文本數據分類方法及服務器,其分類方法就是利用已分類數據提取特征分詞,計算各個特征分詞的權重并以向量表示,而特征分詞的權重根據每個特征詞在所屬的文本數據類別中出現的次數計算得到;將這些已分類文本一部分作為樣本集訓練支持向量機,一部分作為測試集測試,輸出支持向量機的決策函數對為分類數據分類。
發明內容
為了解決目前文本分類方法中存在的高維-稀疏從而導致分類不準確、且需要獲取已分類文本的問題,本發明提供了一種文本數據分類與信息挖掘方法,所述方法包括:
S1:建立不同層級不同類別的關鍵詞庫,并根據關鍵詞庫確定每條文本數據對應的文本特征向量;為描述方便,假設第i條文本數據所含總關鍵詞數為ni、總類別個數為k、所含第j類關鍵詞的數目為mij,則第i條文本數據的特征向量為[mi1,mi2···,mij···mik];
S2:根據S1建立好的關鍵詞庫,基于分層模糊分類的方法對各條文本數據進行分類,分類過程中,計算每條文本數據對各類的隸屬度;第i條文本數據對第j類的隸屬度其中mij表示第i條文本數據所含第j類關鍵詞的數目;根據隸屬度將各條文本數據模糊分類至對應的類別;
S3:選取隸屬度差異化大的文本數據作為可靠個體,通過支持向量機的訓練得到訓練函數;定義第i條文本數據的隸屬度差異化系數為:
定義差異化系數的閾值λ;
當βi≥λ時,稱該個體隸屬度差異大,為可靠個體,作為支持向量機的訓練數據,
當βi<λ時,稱該個體隸屬度差異小,為不可靠個體;
S4:采用訓練好的支持向量機訓練函數對待分類的文本數據進行分類。
可選的,所述S3中支持向量機如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江南大學,未經江南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910481105.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





