[發明專利]文章內容抽取方法、裝置、設備及存儲介質有效

申請號：	202210072667.7	申請日：	2022-01-21
公開（公告）號：	CN114528811B	公開（公告）日：	2022-09-02
發明（設計）人：	田振;李赟輝	申請（專利權）人：	北京麥克斯泰科技有限公司
主分類號：	G06F40/14	分類號：	G06F40/14;G06F16/33;G06F16/35
代理公司：	北京知呱呱知識產權代理有限公司 11577	代理人：	朱芳
地址：	100081 北京市海淀區中***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文章內容抽取方法裝置設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種文章內容抽取方法、裝置、設備及存儲介質。該方法包括首先獲取目標網頁的源碼，對目標網頁的源碼進行DOM樹構建；對構建的DOM樹進行信息重構后遍歷DOM樹，對DOM樹中各個節點中的標簽進行特征提取得到預選標簽集合，其中，標簽中包括該標簽對應的位置信息；對預選標簽集合根據預設的噪音文本集合進行初步去噪得到候選標簽集合；對候選標簽集合進行多維度特征采集得到各個維度的分值，進行歸一化處理，并根據預設的各個維度權重得到標簽得分集合，選擇最優得分標簽所對應的位置信息得到網頁內容。可以看出，本申請中通過從不同維度特征進行判定，最終計算出目標文章內容在網頁中的位置，可以有效的進行數據抽取。

技術領域

本發明涉及文本提取領域，特別涉及一種文章內容抽取方法、裝置、設備及存儲介質。

背景技術

當下很多網站中包含的信息豐富而復雜，對于推薦內容的干擾項也比較多，可以包括有導航、標題、正文、時間、甚至廣告等內容，甚至有些網站的文字高聚集并非出現在文章部分，而是出現在推薦內容部分，或者廣告信息部分，這樣對于基于文字聚集程度識別出來的文章內容，則準確性則會大打折扣，從而影響數據分析，識別的效果。

在現有技術中，對網頁內容抽取的方法主要是通過標簽進行提取，比如常見的抽取頁面所有的帶有content的特征標簽，但此方法對于部分網站適用，部分網站不適用，若網站將標簽的特征換位text的話，在批量提取文章內容的時候，就會產生很多噪點數據，甚至提取不到想要的數據，從而影響數據分析的結果。

發明內容

基于此，本申請實施例提供了一種文章內容抽取方法、裝置、設備及存儲介質，可以能夠準確抽取網頁內的文章內容并提高文章內容識別的精準度。

第一方面，提供了一種文章內容抽取方法，該方法包括：

獲取目標網頁的源碼，對所述目標網頁的源碼進行DOM樹構建；

對構建的DOM樹進行信息重構，得到帶有自定義屬性的DOM樹，所述自定義屬性至少包括位置信息屬性、父子標簽屬性；

遍歷所述帶有自定義屬性的DOM樹，對DOM樹中各個節點中的標簽進行特征提取得到預選標簽集合，其中，所述標簽中包括該標簽對應的位置信息；

對所述預選標簽集合根據預設的噪音文本集合進行初步去噪得到候選標簽集合；其中，根據第一公式得到候選標簽集合，所述第一公式具體包括：