[發(fā)明專利]網(wǎng)頁分類方法、裝置及計算機可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201810694720.0 | 申請日: | 2018-06-29 |
| 公開(公告)號: | CN109062972A | 公開(公告)日: | 2018-12-21 |
| 發(fā)明(設(shè)計)人: | 吳壯偉 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市沃德知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 待分類網(wǎng)頁 核心關(guān)鍵詞 網(wǎng)頁分類 網(wǎng)頁鏈接 網(wǎng)頁源碼 種子網(wǎng)頁 詞集合 可用 指向 計算機可讀存儲介質(zhì) 文本 篩選 存儲介質(zhì) 分類結(jié)果 噪音過濾 自動分類 詞向量 停用詞 分詞 集合 | ||
本發(fā)明提供一種網(wǎng)頁分類方法、裝置及存儲介質(zhì),該方法從種子網(wǎng)頁中獲取網(wǎng)頁鏈接,從該網(wǎng)頁鏈接所指向的待分類網(wǎng)頁中獲取網(wǎng)頁源碼后,對所述網(wǎng)頁源碼進行噪音過濾,獲取每個待分類網(wǎng)頁的篩選文本,對該篩選文本進行分詞和去停用詞處理,得到每個待分類網(wǎng)頁的可用詞集合。之后,該方法從所述可用詞集合中提取核心關(guān)鍵詞,得到每個待分類網(wǎng)頁的核心關(guān)鍵詞集合,計算每個待分類網(wǎng)頁的核心關(guān)鍵詞詞向量的平均值,并將該平均值輸入訓(xùn)練得到的網(wǎng)頁分類模型,得到每個待分類網(wǎng)頁的分類結(jié)果。利用本發(fā)明,可以對種子網(wǎng)頁的網(wǎng)頁鏈接所指向的待分類網(wǎng)頁實現(xiàn)自動分類。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁分類方法、裝置及計算機可讀存儲介質(zhì)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)和Web技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)上網(wǎng)頁的數(shù)量在不斷增加,數(shù)據(jù)資源在不斷豐富,為各種數(shù)據(jù)密集型的應(yīng)用提供了潛在的數(shù)據(jù)來源。然而,過大的信息量給人們處理數(shù)據(jù)信息帶來了很多困難,傳統(tǒng)的靠人工的信息處理方式顯然已經(jīng)無法滿足大量數(shù)據(jù)處理的要求。在這一背景下,如何自動獲取海量網(wǎng)頁的有效文本內(nèi)容,并對海量網(wǎng)頁進行自動分類,是組織和管理網(wǎng)絡(luò)資源的關(guān)鍵。
發(fā)明內(nèi)容
鑒于以上原因,本發(fā)明提供一種網(wǎng)頁分類方法、裝置及計算機可讀存儲介質(zhì),其主要目的在于結(jié)合爬蟲技術(shù)和神經(jīng)網(wǎng)絡(luò)模型,對網(wǎng)頁進行自動分類。
為實現(xiàn)上述目的,本發(fā)明提供一種網(wǎng)頁分類方法,該方法包括:
獲取步驟:從種子網(wǎng)頁中獲取網(wǎng)頁鏈接,從所述網(wǎng)頁鏈接指向的待分類網(wǎng)頁中獲取網(wǎng)頁源碼;
預(yù)處理步驟:對所述網(wǎng)頁源碼進行噪音過濾,獲取每個待分類網(wǎng)頁的篩選文本,對該篩選文本進行分詞和去停用詞處理,得到每個待分類網(wǎng)頁的可用詞集合;
提取步驟:從所述可用詞集合中提取核心關(guān)鍵詞,得到每個待分類網(wǎng)頁的核心關(guān)鍵詞集合;
計算步驟:計算每個待分類網(wǎng)頁的核心關(guān)鍵詞詞向量的平均值,將該平均值輸入預(yù)先訓(xùn)練得到的網(wǎng)頁分類模型,得到每個待分類網(wǎng)頁的分類結(jié)果;及
循環(huán)步驟:將獲得分類結(jié)果的待分類網(wǎng)頁作為新的種子網(wǎng)頁,返回獲取步驟。
優(yōu)選地,所述網(wǎng)頁分類模型的訓(xùn)練步驟包括:
為預(yù)先選取的預(yù)設(shè)數(shù)量的種子網(wǎng)頁標(biāo)注網(wǎng)頁類型;
對所述種子網(wǎng)頁的網(wǎng)頁源碼進行預(yù)處理,得到每個種子網(wǎng)頁的可用詞集合;
從所述可用詞集合中提取核心關(guān)鍵詞,得到每個種子網(wǎng)頁的核心關(guān)鍵詞集合;
計算每個種子網(wǎng)頁的核心關(guān)鍵詞詞向量的平均值;及
利用每個種子網(wǎng)頁的核心關(guān)鍵詞詞向量的平均值和對應(yīng)的網(wǎng)頁類型標(biāo)注對神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,得到網(wǎng)頁分類模型。
優(yōu)選地,所述篩選文本包括網(wǎng)頁源碼中標(biāo)題標(biāo)簽、關(guān)鍵詞標(biāo)簽和描述標(biāo)簽中的文本部分,所述分詞處理采用的分詞方法包括基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法中的一種或幾種。
優(yōu)選地,該方法還包括:
設(shè)置所述循環(huán)步驟的執(zhí)行次數(shù),當(dāng)滿足設(shè)置要求時,終止所述循環(huán)步驟。
優(yōu)選地,該方法還包括:
將具有網(wǎng)頁類型標(biāo)注的種子網(wǎng)頁和獲得分類結(jié)果的待分類網(wǎng)頁對應(yīng)的網(wǎng)頁鏈接存儲至數(shù)據(jù)庫;
當(dāng)獲取的網(wǎng)頁鏈接已在所述數(shù)據(jù)庫中存在時,終止針對該網(wǎng)頁鏈接的后續(xù)操作。
本發(fā)明還提供一種電子裝置,該電子裝置包括存儲器和處理器,所述存儲器中包括網(wǎng)頁分類程序,該網(wǎng)頁分類程序被所述處理器執(zhí)行時實現(xiàn)如下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810694720.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于自然語義的關(guān)鍵詞廣告匹配方法
- 一種建立關(guān)鍵詞模型的方法及裝置
- 一種確定內(nèi)鏈關(guān)鍵詞的方法和裝置
- 用于推送信息的方法和裝置
- 一種處理文獻(xiàn)信息的方法
- 關(guān)聯(lián)詞調(diào)整方法及調(diào)整系統(tǒng)
- 關(guān)聯(lián)詞調(diào)整方法及調(diào)整系統(tǒng)
- 關(guān)聯(lián)詞調(diào)整方法及調(diào)整系統(tǒng)
- 基于知識體系的知識圖譜模型的創(chuàng)建方法及圖譜檢索方法
- 核心產(chǎn)品詞識別方法、裝置、計算機設(shè)備及存儲介質(zhì)





