[發明專利]文本對象分類方法及裝置有效
| 申請號: | 201710209192.0 | 申請日: | 2017-03-31 |
| 公開(公告)號: | CN108664512B | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 劉曉華;李航;涂兆鵬;嚴哲峰 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31;G06N3/08 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 羅振安 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 對象 分類 方法 裝置 | ||
本申請公開了一種文本對象分類方法及裝置,屬于互聯網技術領域。所述方法包括:獲取第i層節點的節點特征,節點特征為第一類特征和第二類特征拼接后的拼接特征,或者,第二類特征,第一類特征通過人工特征工程提取,第二類特征通過機器學習,每個第i+1層節點對應有神經網絡;將屬于同一個第i+1層節點的各個第i層節點的節點特征輸入第i+1層節點對應的神經網絡,得到第i+1層節點的第二類特征;當第i+1層節點是根節點時,將根節點的節點特征輸入分類器,通過分類器輸出文本對象的類別標簽。本申請解決了通過神經網絡提取到的特征比較片面,進而影響到分類結果的準確的問題,能夠提取更加全面的特征,提高分類結果的準確性。
技術領域
本申請涉及互聯網技術領域,特別涉及一種文本對象分類方法及裝置。
背景技術
網頁分類是指根據網頁文檔的內容將網頁劃分為不同的類別,并添加對應的類別標簽。
網頁文檔是用超文本標記語言(英文:HyperText Markup Language,簡稱:HTML)描述的文本,類別標簽的名字通常對應具體的應用場景,比如:新聞網頁的類別標簽可能是“國內”、“國際”、“政治、“經濟”等,敏感網頁的類別標簽可能是“包含敏感信息”和“不包含敏感信息”。在對網頁進行分類時,通常將網頁看做一個文本,然后用詞向量來表示文本中的每個詞,基于詞向量表示,通過神經網絡對文本進行編碼,得到文本的特征,然后將文本的特征輸入到分類器中進行分類,得到文本所屬的類別標簽。
但通過神經網絡提取到的特征比較片面,不能夠完全描述出網頁的特征,進而會影響到分類結果的準確性。
發明內容
為了解決現有技術中通過神經網絡提取到的特征比較片面,不能夠完全描述出網頁的特征,進而會影響到分類結果的準確性的問題,本申請實施例提供了一種文本對象分類方法及裝置。所述技術方案如下:
第一方面,提供了一種文本對象分類方法,該文本對象具有樹結構,該樹結構中包括n層節點,樹結構中的第i層節點的文本內容是所屬第i+1層節點的文本內容的一部分,n和i為正整數,1≤i<n,最底層的節點被稱為第一層節點,最頂層的節點被稱為根節點,根節點的數量為一個,通過人工特征工程提取到的特征被稱為第一類特征,通過機器學習到的特征被稱為第二類特征;第i+1層節點在提取節點特征時,首先獲取屬于該第i+1層節點的各個第i層節點的節點特征,該節點特征為對應節點的第二類特征或對應節點的第一類特征和第二類特征進行拼接后得到的拼接特征,然后將各個第i層節點的節點特征輸入與第i+1層節點對應的神經網絡,每個第i+1層節點對應有各自的神經網絡,由神經網絡輸出該第i+1層節點的第二類特征;從樹結構的最底層起逐層向上計算出各個節點的節點特征,直到計算出根節點的節點特征后,根節點的節點特征被輸入分類器,由分類器輸出文本對象的類別標簽;其中,在每個節點的節點特征的確定過程中,至少有一個節點的節點特征是將第一類特征和第二類特征進行拼接得到的拼接特征,另外,第i+1層節點還被稱為中間節點,第i層節點還被稱為是第i+1層節點的孩子節點。
通過在提取文本對象的節點特征時,將文本對象的樹結構中的至少一個節點的節點特征由第一類特征和第二類特征拼接得到,使得提取文本對象的節點特征中不僅只有通過神經網絡得到的第二類特征,同時還融合了通過人工特征工程提取到的第一類特征,使得根節點輸出的節點特征能夠更加全面的表達出文本對象的特征,解決了相關技術中通過神經網絡提取到的特征比較片面,不能夠完全描述出網頁的特征,進而會影響到分類結果的準確性的問題,達到了提取更加全面的特征,提高分類結果的準確性的效果。
另外,通過將同一個第i+1層節點的各個第i層節點的節點特征輸入第i+1層節點對應的神經網絡中,得到第i+1層節點的第二類特征,使得具有樹狀結構的文本對象能夠逐層計算各個節點的節點特征。
另外,由于每個第i+1層節點對應有各自的神經網絡,使得神經網絡的設計方式更加靈活,能夠在樹結構的任意節點上將第一類特征和第二類特征進行拼接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710209192.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:獲取網頁信息方法和裝置
- 下一篇:用于推送關鍵詞的方法、裝置以及設備





