[發明專利]基于機器學習的文本分類方法及終端設備在審
| 申請號: | 201811197171.2 | 申請日: | 2018-10-15 |
| 公開(公告)號: | CN109284385A | 公開(公告)日: | 2019-01-29 |
| 發明(設計)人: | 吳壯偉 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/955 |
| 代理公司: | 深圳中一專利商標事務所 44237 | 代理人: | 官建紅 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 預設 網頁 網頁文本 文本分類模型 文本分類 詞組 相關度 基于機器 神經網絡 終端設備 集合 錨文本 預設置 子類別 統一資源定位符 抓取 網絡爬蟲 訓練集 分類 學習 | ||
1.一種基于機器學習的文本分類方法,其特征在于,該方法包括:
通過網絡爬蟲抓取多個網頁;
針對所述多個網頁中的任一網頁,獲取所述網頁的統一資源定位符URL和錨文本;
對所述網頁的URL和錨文本進行處理,獲得第一詞組集合;
根據所述第一詞組集合和預設置的第二詞組集合,計算所述網頁與預設類別的相關度,其中,所述第二詞組集合中的詞組用于標識所述預設類別;
若所述網頁與預設類別的相關度大于第一預設值,則對所述網頁進行處理得到網頁文本;
獲取預設訓練集,針對所述訓練集中的任一文本,所述文本為經過人工分類的文本,所述文本標注有對應的子類別,所述子類別為預設子類別列表中的一種子類別,所述預設子類別列表中的所有子類別構成所述預設類別;
通過所述訓練集對預設置的深度神經網絡文本分類模型進行訓練,直至達到預設的訓練終止條件,通過所述深度神經網絡文本分類模型對所述網頁文本進行文本分類處理,得到所述網頁的子類別。
2.根據權利要求1所述的文本分類方法,其特征在于,所述第二詞組包括m個詞組,所述根據所述第一詞組集合和預設置的第二詞組集合,計算所述網頁與所述預設類別的相關度包括:
獲取第一詞組集合中屬于第二詞組集合的詞組的個數n;
根據n與m的比值,計算所述網頁與所述預設類別的相關度。
3.根據權利要求1所述的文本分類方法,其特征在于,在將所述網頁文本進行文本分類處理之后,該方法還包括:
將所述網頁的URL放入預設數據庫;
通過所述網絡爬蟲按照預設時間間隔抓取所述預設類別的網頁;
針對所述網絡爬蟲抓取到的任一網頁,根據所述網頁的URL判斷所述網頁的URL是否屬于預設數據庫中的URL;
若所述網頁的URL屬于預設數據庫中的URL,則丟棄所述網頁。
4.根據權利要求3所述的文本分類方法,其特征在于,在丟棄所述網頁之前,該方法還包括:
在所述預設數據庫中為所述網頁的URL、所述網頁所對應的網頁文本的子類別和抓取所述網頁的時間建立唯一映射關系;
判斷預設數據庫中存儲的抓取所述網頁的時間和此次抓取所述網頁的時間之間,所述網頁是否存在更新;
若所述網頁存在更新,則通過所述深度神經網絡文本分類模型對所述網頁的網頁文本進行分類處理,并在所述預設數據庫中更新所述網頁的URL、所述網頁所對應的子類別和抓取所述網頁的時間的唯一映射關系;
若所述網頁不存在更新,則丟棄所述網頁。
5.根據權利要求1-4任一項所述的文本分類方法,其特征在于,所述深度神經網絡文本分類模型包括4層,分別為輸入層、第一隱藏層、第二隱藏層和輸出層,所述輸入層的輸入為所述網頁文本所對應的特征向量,所述第一隱藏層包括第一預設數目的節點,所述第二隱藏層包括第二預設數目的節點,所述第一隱藏層和所述第二隱藏層的激活函數為relu函數,所述輸出層為所述網頁文本為所述預設子類別列表中每一種子類別的概率,所述輸出層的激活函數為logistics函數。
7.根據權利要求1所述的文本分類方法,其特征在于,該方法還包括:
獲取測試集,所述測試集中包含多個經人工分類的網頁文本;
針對所述訓練集中的任一子類別的所有網頁文本,通過聚類分析算法得到該子類別所對應的簇;
獲得該子類別所對應的簇的中心點和半徑;
依次計算所述測試集中的網頁文本與所述中心點的距離;
將與所述中心點的距離小于等于所述半徑的網頁文本標記為目標網頁文本;
若目標網頁文本的數目低于預設數目,則在訓練集中刪除該子類別以及該子類別所對應的所有網頁文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811197171.2/1.html,轉載請聲明來源鉆瓜專利網。





