[發明專利]基于樣本關鍵詞學習的文本自動分類方法、系統及介質在審
| 申請號: | 201810980279.2 | 申請日: | 2018-08-27 |
| 公開(公告)號: | CN109002561A | 公開(公告)日: | 2018-12-14 |
| 發明(設計)人: | 劉麗;劉懷泉;張龍;李曉雙;陳思琦 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/08 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 篩選 樣本 關鍵詞學習 信息判定 自動分類 準確率 文檔 文本 語義關聯關系 多媒體對象 海量信息 領域文本 判定結果 判定信息 文本分類 業務系統 自動提取 多標記 異構 檢索 驗證 學習 監管 應用 | ||
本發明公開了基于樣本關鍵詞學習的文本自動分類方法、系統及介質,利用多標記學習技術對樣本集中的各領域文本語義關聯關系進行學習,自動提取對應領域篩選關鍵詞和信息判定關鍵詞,進行文本分類。該方法可以應用于異構多媒體對象的檢索,所提取的篩選關鍵詞用于在監管業務系統海量信息中篩選出對應領域相關文檔,篩選結果具有高召回率。信息判定關鍵詞用于在對應領域文檔中判定信息,判定結果具有高召回率和高準確率。最后用召回率和準確率來驗證本發明的有效性。
技術領域
本發明涉及機器學習和數據挖掘領域技術領域,特別是涉及基于樣本關鍵詞學習的文本自動分類方法、系統及介質。
背景技術
在當今信息時代,網絡發展迅猛,網上的信息量爆炸式地增加,互聯網已經成為世界上最為巨大的信息資源庫,漸漸成為人們獲取各種信息資源的重要途徑。在這個背景下,大量的新聞網站、商品網站以及微博應運而生,每天都會產生巨量的文本信息。面對此等數量的文本數據,如何對文本信息進行準確地分類,同時如何有效地組織和管理這些信息,同時快速、準確地找到用戶所需要的信息是當前信息技術領域所面臨的難題。
目前文本分類所涉及的技術有很多如KNN、奇異值分解和最大熵分類器等,但它們都存在一些問題,如分類的數據相對較慢,而且分類的精度低,文本精度低也就沒有了使用價值。
發明內容
為了解決現有技術的不足,本發明提供了基于樣本關鍵詞學習的文本自動分類方法、系統及介質,其具有分類速度快且分類精度高的效果;
本發明通過借鑒數據挖掘、自然語言處理和文本挖掘等領域的最新研究成果,研發基于樣本關鍵詞學習的文件自動分類系統,實現文件的正確分析及快速信息檢索。
本發明所采用的技術方案如下:
作為本發明的第一方面,提供了基于樣本關鍵詞學習的文本自動分類方法,通過對樣本進行訓練,從海量訓練樣本中學習詞語之間的潛在語義規則和聯系,自動提取對應領域篩選關鍵詞和信息判定關鍵詞,通過關鍵詞包含的語義進行文本分類。
基于樣本關鍵詞學習的文本自動分類方法,包括:
獲取訓練樣本和測試樣本;
對訓練樣本進行類別標記,從已標記的訓練樣本中提取關鍵詞,對提取的關鍵詞進行訓練特征提取,建立訓練特征集合;
建立神經網絡,初始化神經網絡的權值;
利用訓練特征集合和訓練樣本的類別標記對神經網絡進行訓練,得到訓練好的神經網絡;
從測試樣本中提取測試關鍵詞,對提取的測試關鍵詞進一步提取測試特征,將提取的測試特征輸入到已經訓練好的神經網絡中,輸出測試樣本的類別。
進一步的,從已標記的訓練樣本中提取關鍵詞,對提取的關鍵詞進行訓練特征提取,建立訓練特征集合具體步驟,包括:
采用中科院漢語詞法分析系統對已標記的訓練樣本的文本進行分詞預處理;
對分詞預處理的結果,利用LDA主題模型提取關鍵詞;
對LDA主題模型提取的關鍵詞,利用Word2Vec提取訓練特征,建立訓練特征集合。
進一步的,所述初始化神經網絡的權值是使用受限玻爾茲曼機初始化神經網絡的權值。
作為本發明的第二方面,提供了基于樣本關鍵詞學習的文本自動分類系統;
基于樣本關鍵詞學習的文本自動分類系統,包括:存儲器、處理器以及存儲在存儲器上并在處理器上運行的計算機指令,所述計算機指令被處理器運行時,完成上述任一方法所述的步驟。
作為本發明的第三方面,提供了一種計算機可讀存儲介質;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810980279.2/2.html,轉載請聲明來源鉆瓜專利網。





