[發(fā)明專利]文章內容抽取方法、裝置、設備及存儲介質有效
| 申請?zhí)枺?/td> | 202210072667.7 | 申請日: | 2022-01-21 |
| 公開(公告)號: | CN114528811B | 公開(公告)日: | 2022-09-02 |
| 發(fā)明(設計)人: | 田振;李赟輝 | 申請(專利權)人: | 北京麥克斯泰科技有限公司 |
| 主分類號: | G06F40/14 | 分類號: | G06F40/14;G06F16/33;G06F16/35 |
| 代理公司: | 北京知呱呱知識產權代理有限公司 11577 | 代理人: | 朱芳 |
| 地址: | 100081 北京市海淀區(qū)中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文章內容 抽取 方法 裝置 設備 存儲 介質 | ||
1.一種文章內容抽取方法,其特征在于,所述方法包括:
獲取目標網(wǎng)頁的源碼,對所述目標網(wǎng)頁的源碼進行DOM樹構建;
對構建的DOM樹進行信息重構,得到帶有自定義屬性的DOM樹,所述自定義屬性至少包括位置信息屬性、父子標簽屬性;
遍歷所述帶有自定義屬性的DOM樹,對DOM樹中各個節(jié)點中的標簽進行特征提取得到預選標簽集合,其中,所述標簽中包括該標簽對應的位置信息;
對所述預選標簽集合根據(jù)預設的噪音文本集合進行初步去噪得到候選標簽集合;其中,根據(jù)第一公式得到候選標簽集合,所述第一公式具體包括:
R1=P-P∩(P1∪P2∪...∪Pn)
R1表示候選標簽集合,P表示預選標簽集合,P1,P2...Pn表示不同的噪音集合;
對所述候選標簽集合進行多維度特征采集得到每個候選標簽在各個維度的分值,對每個候選標簽在各個維度的分值進行歸一化處理,并根據(jù)預設的各個維度權重得到標簽得分集合,選擇最優(yōu)得分標簽所對應的位置信息得到網(wǎng)頁內容;
其中,根據(jù)第二公式得到標簽得分結合,所述第二公式具體包括:
R2表示標簽得分集合,W表示歸一化后的權重值集合,μ表示分值均值,并有δ表示分值標準差,并有υ表示維度分值,n表示候選標簽數(shù)量。
2.根據(jù)權利要求1所述的方法,其特征在于,對所述候選標簽集合進行多維度特征采集得到每個候選標簽在各個維度的分值,包括:
對所述候選標簽集合中的每個候選標簽進行內容文字占比評分、位置全頁占比評分、父子標簽特征評分以及文本內容特征評分。
3.根據(jù)權利要求1所述的方法,其特征在于,所述對每個候選標簽在各個維度的分值進行歸一化處理,并根據(jù)預設的各個維度權重得到目標標簽,包括:
根據(jù)歸一化的分值與各個維度權重比做乘積得到標簽得分集合。
4.根據(jù)權利要求1所述的方法,其特征在于,對所述目標網(wǎng)頁源碼進行DOM樹構建,包括:
對所述目標網(wǎng)頁源碼中所有標簽及標簽對應的位置信息進行DOM樹構建。
5.根據(jù)權利要求1所述的方法,其特征在于,對所述DOM樹中各個節(jié)點中的標簽進行特征提取得到預選標簽集合,包括:
提取所述DOM樹中各個節(jié)點中的標簽中至少包含Text、Article、Post、Conter、List以及Content特征的標簽作為預選標簽。
6.根據(jù)權利要求1所述的方法,其特征在于,所述標簽對應的位置信息包括標簽的行位置以及總標簽位置。
7.根據(jù)權利要求1所述的方法,其特征在于,在對所述預選標簽集合根據(jù)預設的噪音集合進行初步去噪得到候選標簽集合之前,還包括:
設置噪音文本集合,所述噪音文本集合中的噪音文本至少包括廣告、推薦以及海購。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京麥克斯泰科技有限公司,未經(jīng)北京麥克斯泰科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210072667.7/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





