[發明專利]文章內容抽取方法、裝置、設備及存儲介質有效
| 申請號: | 202210072667.7 | 申請日: | 2022-01-21 |
| 公開(公告)號: | CN114528811B | 公開(公告)日: | 2022-09-02 |
| 發明(設計)人: | 田振;李赟輝 | 申請(專利權)人: | 北京麥克斯泰科技有限公司 |
| 主分類號: | G06F40/14 | 分類號: | G06F40/14;G06F16/33;G06F16/35 |
| 代理公司: | 北京知呱呱知識產權代理有限公司 11577 | 代理人: | 朱芳 |
| 地址: | 100081 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文章內容 抽取 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種文章內容抽取方法、裝置、設備及存儲介質。該方法包括首先獲取目標網頁的源碼,對目標網頁的源碼進行DOM樹構建;對構建的DOM樹進行信息重構后遍歷DOM樹,對DOM樹中各個節點中的標簽進行特征提取得到預選標簽集合,其中,標簽中包括該標簽對應的位置信息;對預選標簽集合根據預設的噪音文本集合進行初步去噪得到候選標簽集合;對候選標簽集合進行多維度特征采集得到各個維度的分值,進行歸一化處理,并根據預設的各個維度權重得到標簽得分集合,選擇最優得分標簽所對應的位置信息得到網頁內容。可以看出,本申請中通過從不同維度特征進行判定,最終計算出目標文章內容在網頁中的位置,可以有效的進行數據抽取。
技術領域
本發明涉及文本提取領域,特別涉及一種文章內容抽取方法、裝置、設備及存儲介質。
背景技術
當下很多網站中包含的信息豐富而復雜,對于推薦內容的干擾項也比較多,可以包括有導航、標題、正文、時間、甚至廣告等內容,甚至有些網站的文字高聚集并非出現在文章部分,而是出現在推薦內容部分,或者廣告信息部分,這樣對于基于文字聚集程度識別出來的文章內容,則準確性則會大打折扣,從而影響數據分析,識別的效果。
在現有技術中,對網頁內容抽取的方法主要是通過標簽進行提取,比如常見的抽取頁面所有的帶有content的特征標簽,但此方法對于部分網站適用,部分網站不適用,若網站將標簽的特征換位text的話,在批量提取文章內容的時候,就會產生很多噪點數據,甚至提取不到想要的數據,從而影響數據分析的結果。
發明內容
基于此,本申請實施例提供了一種文章內容抽取方法、裝置、設備及存儲介質,可以能夠準確抽取網頁內的文章內容并提高文章內容識別的精準度。
第一方面,提供了一種文章內容抽取方法,該方法包括:
獲取目標網頁的源碼,對所述目標網頁的源碼進行DOM樹構建;
對構建的DOM樹進行信息重構,得到帶有自定義屬性的DOM樹,所述自定義屬性至少包括位置信息屬性、父子標簽屬性;
遍歷所述帶有自定義屬性的DOM樹,對DOM樹中各個節點中的標簽進行特征提取得到預選標簽集合,其中,所述標簽中包括該標簽對應的位置信息;
對所述預選標簽集合根據預設的噪音文本集合進行初步去噪得到候選標簽集合;其中,根據第一公式得到候選標簽集合,所述第一公式具體包括:
R1=P-P∩(P1∪P2∪...∪Pn)
R1表示候選標簽集合,P表示預選標簽集合,P1,P2...Pn表示不同的噪音集合;
對所述候選標簽集合進行多維度特征采集得到每個候選標簽在各個維度的分值,對每個候選標簽在各個維度的分值進行歸一化處理,并根據預設的各個維度權重得到標簽得分集合,選擇最優得分標簽所對應的位置信息得到網頁內容;
其中,根據第二公式得到標簽得分結合,所述第二公式具體包括:
R2表示標簽得分集合,W表示歸一化后的權重值集合,μ表示分值均值,并有δ表示分值標準差,并有υ表示維度分值,n表示候選標簽數量。
可選地,對所述候選標簽集合進行多維度特征采集得到每個候選標簽在各個維度的分值,包括:
對所述候選標簽集合中的每個候選標簽進行內容文字占比評分、位置全頁占比評分、父子標簽特征評分以及文本內容特征評分。
可選地,所述對每個候選標簽在各個維度的分值進行歸一化處理,并根據預設的各個維度權重得到目標標簽,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京麥克斯泰科技有限公司,未經北京麥克斯泰科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210072667.7/2.html,轉載請聲明來源鉆瓜專利網。





