[發明專利]一種基于機器學習的文本分類方法及終端設備在審
| 申請號: | 201811181954.1 | 申請日: | 2018-10-11 |
| 公開(公告)號: | CN109471937A | 公開(公告)日: | 2019-03-15 |
| 發明(設計)人: | 吳壯偉 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 深圳中一專利商標事務所 44237 | 代理人: | 官建紅 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 文本 文本分類 文本分類模型 基于機器 網頁內容 終端設備 訓練集 標簽數據 標題數據 分詞處理 分詞結果 分類文本 欄目數據 特征向量 網絡爬蟲 正文數據 特征化 向量化 網站 預設 詞語 學習 分類 論壇 | ||
1.一種基于機器學習的文本分類方法,其特征在于,該方法包括:
通過網絡爬蟲,爬取預設論壇網站的多個網頁的網頁內容;
針對所述多個網頁中的任一網頁,對所述網頁的網頁內容進行處理,獲得所述網頁所對應的一個文本,所述文本包括所述網頁的欄目數據、標題數據、正文數據及標簽數據;
獲取訓練集,所述訓練集包括所述多個網頁所對應的多個文本;
針對所述訓練集中的任一文本,為所述文本設置標識,所述標識用于表示所述文本的類別;
對所述文本進行分詞處理,并對分詞結果向量化,獲得所述文本所對應的特征向量;
通過所述訓練集對文本分類模型進行訓練;
通過完成訓練的文本分類模型,對待分類文本進行分類。
2.根據權利要求1所述的文本分類方法,其特征在于,所述對分詞結果向量化,獲得所述文本所對應的特征向量包括:
通過獨熱編碼獲得所述欄目數據的分詞結果所對應的第一向量和所述標簽數據的分詞結果所對應的第二向量;
通過對所述標題數據的分詞結果進行詞性分析,得到標題數據所對應的關鍵詞,通過詞向量模型獲得每個關鍵詞所對應的詞向量,將所述標題數據所對應的所有關鍵詞的詞向量進行平均處理,得到第三向量;
通過TF-IDF矩陣對所述正文數據的分詞結果進行關鍵詞提取,得到正文數據所對應的關鍵詞,通過詞向量模型獲得每個關鍵詞的詞向量,將所述正文數據所對應的所有關鍵詞的詞向量進行平均處理,得到第四向量;
根據所述第一向量、所述第二向量、所述第三向量和所述第四向量,獲得所述文本所對應的特征向量。
3.根據權利要求1所述的文本分類方法,其特征在于,所述對分詞結果向量化,獲得所述文本所對應的特征向量包括:
對所述文本的分詞結果進行關鍵詞提取,獲得所述文本的關鍵詞;
統計所述文本的關鍵詞在所述網頁的欄目、標題、正文及標簽的位置分布;
針對所述文本的關鍵詞中的任一關鍵詞,根據所述關鍵詞在所述網頁的欄目、標題、正文及標簽的位置分布,為所述關鍵詞設置權值;
通過詞向量模型獲得每個關鍵詞的詞向量;
針對所述文本的關鍵詞中的任一關鍵詞,將所述關鍵詞的詞向量與所述關鍵詞的權值相乘,獲得更新后的詞向量;
對所述文本的所有關鍵詞的更新后的詞向量進行平均處理,獲得所述文本所對應的特征向量。
4.根據權利要求3所述的文本分類方法,其特征在于,所述為所述關鍵詞設置權值包括:
分別為所述網頁的欄目位置設置第一值,為所述網頁的標題位置設置第二值,為所述網頁的正文位置設置第三值,為所述網頁的標簽位置設置第四值;
根據所述關鍵詞出現在所述網頁的位置,將所述關鍵詞所出現的位置所對應的值求和,得到所述關鍵詞的權值。
5.根據權利要求1-4任一項所述的文本分類方法,其特征在于,所述文本分類模型為深度神經網絡模型,所述深度神經網絡模型包括4層,分別為輸入層、第一隱藏層、第二隱藏層和輸出層,所述輸入層的輸入為所述文本所對應的特征向量,所述第一隱藏層包括第一預設數目的節點,所述第二隱藏層包括第二預設數目的節點,所述第一隱藏層和所述第二隱藏層的激活函數為relu函數,所述輸出層為所述文本的類型的概率,所述輸出層的激活函數為logistics函數。
6.根據權利要求5所述的文本分類方法,其特征在于,該方法還包括:
建立多個深度神經網絡模型,針對所述多個深度神經網絡模型中的任意兩個深度神經網絡模型,所述兩個深度神經網絡模型的學習率、訓練次數、批尺寸和終止誤差各不相同;
通過所述訓練集分別對所述多個深度神經網絡模型進行訓練;
獲取預設測試集;
通過所述預設測試集分別對完成訓練的所述多個深度神經網絡模型進行測試;
根據測試結果選取分類精確度最高的一個深度神經網絡模型對所述待分類文本進行分類。
7.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811181954.1/1.html,轉載請聲明來源鉆瓜專利網。





