[發明專利]一種網絡內容的分類方法和裝置在審
| 申請號: | 202111026455.7 | 申請日: | 2021-09-02 |
| 公開(公告)號: | CN113722622A | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 丁正;顧曉東;董偉;周榮;趙學哲;程子帥;郭濤 | 申請(專利權)人: | 上海欣方智能系統有限公司;上海欣方軟件有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/951;G06F16/957;G06K9/62;G06N3/04 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 王雙;王琦 |
| 地址: | 201203 上海市浦東*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 內容 分類 方法 裝置 | ||
1.一種網絡內容的分類方法,其特征在于,包括:
從網絡中獲取待分類的網頁URL,并寫入目標URL文檔;
通過爬蟲引擎在網絡中爬取目標URL文檔中各URL網頁的內容,并將各網頁的內容保存為mhtml文檔,寫入互聯網內容存檔數據庫;
根據保存的mhtml文檔,構建網頁URL對應的網頁內容圖表示;其中,所述網頁圖表示包括文本圖和圖片圖,文本圖中的頂點為文本頂點,圖片圖中的頂點為圖片頂點;
利用圖神經網絡對所述網頁內容圖表示進行圖的分類與識別,將分類和識別結果作為所述網頁內容圖表示對應的網頁URL的分類和識別結果;其中,在進行圖的分類與識別時,通過卷積和池化操作確定所述文本圖的特征向量和所述圖片圖的特征向量,并將文本圖的特征向量和圖片圖的特征向量進行拼接,作為所述網頁內容圖表示的特征向量。
2.根據權利要求1所述的方法,其特征在于,對于文本圖,所述構建網頁URL對應的網頁內容圖表示包括:
將mhtml文檔中保存的網頁文字內容表示為HTML樹;其中,將所述網頁內容中的文字內容元素配置為所述HTML樹的節點,對于所述網頁中包括文本信息的圖片,提取并識別嵌入圖片的文本,生成文本節點加入所述HTML樹中;
利用所述HTML樹中的節點和節點間的關系構造圖G=(V,E);其中,G的每個頂點v對應所述HTML樹中的一個節點,G的邊e表示頂點間的拓撲關系。
3.根據權利要求1所述的方法,其特征在于,對于圖片圖,所述構建網頁URL對應的網頁內容圖表示包括:
將所述網頁中的每個圖片作為圖片圖中的一個頂點v,并設置所有頂點為孤立頂點;
按照由各頂點間位置關系所設定的處理順序,依次對每個頂點進行處理,具體處理包括:
計算所述每個頂點的幾何中心,獲取其中心位置;
依次選擇其他頂點與所述每個頂點連線,若該連線不經過任何圖片的任何部分,則在所述連線的兩個圖片頂點間建立邊e,否則所述連線的兩個圖片頂點間不建立邊。
4.根據權利要求2所述的方法,其特征在于,在所述將mhtml文檔中保存的網頁內容表示為HTML樹后、所述構造圖G前,該方法進一步包括:
遍歷所述HTML樹中的各個節點,若節點n為空、且其子節點為空,則刪除節點n;若節點n為空、且節點n僅有一個子節點,則利用該子節點替換節點n。
5.根據權利要求4所述的方法,其特征在于,在所述構建網頁URL對應的網頁內容圖表示前,該方法進一步包括:將所述mhtml文檔中的網頁內容在瀏覽器中進行渲染,提取各個文本節點的坐標信息,構建HTML樹中各文本節點的內容和屬性信息。
6.根據權利要求4所述的方法,其特征在于,所述利用所述HTML樹中的節點和節點間的關系構造圖G=(V,E)包括:
將所述HTML樹中內容不為空的節點對應圖G中的一個頂點v,將節點內容和屬性賦值給對應的頂點;
根據所述HTML樹中內容為空的節點及其子節點,在圖G中生成所述內容為空的節點對應的一個頂點v;
根據所述HTML樹中的節點位置關系和節點層次結構關系構建圖G中的頂點關聯關系。
7.根據權利要求6所述的方法,其特征在于,所述在圖G中生成所述內容為空的節點對應的一個頂點v包括:
對于HTML樹中內容為空的節點,當其子節點內容均非空時,將相應的節點及其子節點劃分到一個節點組中,在圖G中增加新頂點,新頂點內容為節點組內節點內容的集合,位置屬性為節點組內的各節點位置集合取交集;將所述新頂點的內容和屬性賦值給所述內容為空的節點,將該節點看作內容不為空的節點;
對于HTML樹中內容為空的節點,當其子節點中包括內容為空的子節點時,在圖G中生成所述內容為空的子節點對應的一個頂點,使該子節點被看作內容不為空的字節點,直到所有子節點被看作內容為非空。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海欣方智能系統有限公司;上海欣方軟件有限公司,未經上海欣方智能系統有限公司;上海欣方軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111026455.7/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





