[發明專利]基于樣本關鍵詞學習的文本自動分類方法、系統及介質在審
| 申請號: | 201810980279.2 | 申請日: | 2018-08-27 |
| 公開(公告)號: | CN109002561A | 公開(公告)日: | 2018-12-14 |
| 發明(設計)人: | 劉麗;劉懷泉;張龍;李曉雙;陳思琦 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/08 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 篩選 樣本 關鍵詞學習 信息判定 自動分類 準確率 文檔 文本 語義關聯關系 多媒體對象 海量信息 領域文本 判定結果 判定信息 文本分類 業務系統 自動提取 多標記 異構 檢索 驗證 學習 監管 應用 | ||
1.基于樣本關鍵詞學習的文本自動分類方法,其特征是,包括:
獲取訓練樣本和測試樣本;
對訓練樣本進行類別標記,從已標記的訓練樣本中提取關鍵詞,對提取的關鍵詞進行訓練特征提取,建立訓練特征集合;
建立神經網絡,初始化神經網絡的權值;
利用訓練特征集合和訓練樣本的類別標記對神經網絡進行訓練,得到訓練好的神經網絡;
從測試樣本中提取測試關鍵詞,對提取的測試關鍵詞進一步提取測試特征,將提取的測試特征輸入到已經訓練好的神經網絡中,輸出測試樣本的類別。
2.如權利要求1所述的基于樣本關鍵詞學習的文本自動分類方法,其特征是,
從已標記的訓練樣本中提取關鍵詞,對提取的關鍵詞進行訓練特征提取,建立訓練特征集合具體步驟,包括:
采用中科院漢語詞法分析系統對已標記的訓練樣本的文本進行分詞預處理;
對分詞預處理的結果,利用LDA主題模型提取關鍵詞;
對LDA主題模型提取的關鍵詞,利用Word2Vec提取訓練特征,建立訓練特征集合。
3.如權利要求1所述的基于樣本關鍵詞學習的文本自動分類方法,其特征是,
所述初始化神經網絡的權值是使用受限玻爾茲曼機初始化神經網絡的權值。
4.基于樣本關鍵詞學習的文本自動分類系統,其特征是,包括:存儲器、處理器以及存儲在存儲器上并在處理器上運行的計算機指令,所述計算機指令被處理器運行時,完成上述權利要求1-3任一方法所述的步驟。
5.一種計算機可讀存儲介質,其特征是,其上存儲有計算機指令,所述計算機指令被處理器運行時,完成上述權利要求1-3任一方法所述的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810980279.2/1.html,轉載請聲明來源鉆瓜專利網。





