[發(fā)明專利]基于深度學(xué)習(xí)的網(wǎng)頁(yè)正文抽取方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110026891.8 | 申請(qǐng)日: | 2021-01-09 |
| 公開(公告)號(hào): | CN112667940B | 公開(公告)日: | 2022-02-18 |
| 發(fā)明(設(shè)計(jì))人: | 陳前華 | 申請(qǐng)(專利權(quán))人: | 廣東電子工業(yè)研究院有限公司 |
| 主分類號(hào): | G06F16/957 | 分類號(hào): | G06F16/957;G06N3/04;G06N3/08 |
| 代理公司: | 北京喆翙知識(shí)產(chǎn)權(quán)代理有限公司 11616 | 代理人: | 葉似錦 |
| 地址: | 523808 廣東省東莞*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) 網(wǎng)頁(yè) 正文 抽取 方法 | ||
本發(fā)明公開了基于深度學(xué)習(xí)的網(wǎng)頁(yè)正文抽取方法,包括如下步驟:1)根DOM節(jié)點(diǎn)到葉子DOM節(jié)點(diǎn)的數(shù)據(jù)集準(zhǔn)備;2)根DOM節(jié)點(diǎn)到葉子DOM節(jié)點(diǎn)的數(shù)據(jù)集構(gòu)建;3)對(duì)根DOM節(jié)點(diǎn)到葉子DOM節(jié)點(diǎn)的數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行標(biāo)注;4)利用Fasttext對(duì)路徑的標(biāo)簽進(jìn)行預(yù)訓(xùn)練和編碼;5)訓(xùn)練標(biāo)簽路徑文本的LSTM分類模型;6)LSTM模型對(duì)標(biāo)簽路徑文本進(jìn)行預(yù)測(cè);7)還原抽取到的網(wǎng)頁(yè)正文。本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體是指提高簡(jiǎn)歷網(wǎng)頁(yè)正文抽取正確率的基于深度學(xué)習(xí)的網(wǎng)頁(yè)正文抽取方法。
技術(shù)領(lǐng)域
本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體是指基于深度學(xué)習(xí)的網(wǎng)頁(yè)正文抽取方法。
背景技術(shù)
互聯(lián)網(wǎng)上有大量的公開信息,要獲取這些信息,需要采用一系列的爬取與自然語(yǔ)言處理技術(shù),進(jìn)行網(wǎng)頁(yè)獲取和分析處理,其中,網(wǎng)頁(yè)正文提取是一個(gè)重要研究課題。隨著萬(wàn)維網(wǎng)的發(fā)展,網(wǎng)頁(yè)的功能、樣式結(jié)構(gòu)變得越來(lái)越復(fù)雜,網(wǎng)頁(yè)內(nèi)常常包含大量無(wú)用信息:廣告、外部鏈接、導(dǎo)航欄等等,一般來(lái)說(shuō),我們關(guān)心的只有網(wǎng)頁(yè)的正文內(nèi)容,所謂正文,是網(wǎng)頁(yè)中我們關(guān)心的內(nèi)容信息,包括目標(biāo)文字、圖片、視頻。
研究的正文提取的方法很多,在特定網(wǎng)頁(yè)范圍提供了可觀的準(zhǔn)確率,現(xiàn)有的一種基于不同密度分布的正文提取方法,文章假設(shè)正文內(nèi)容會(huì)集中出現(xiàn),而構(gòu)成HTML的除了標(biāo)簽就是文字,所以認(rèn)為一個(gè)網(wǎng)頁(yè)標(biāo)簽最少的地方就是正文。基于這個(gè)假設(shè),文章作出一個(gè)標(biāo)簽分布圖,這種方法的目標(biāo)是那種正文較為集中的網(wǎng)頁(yè),如新聞網(wǎng)頁(yè)等等,而且這種提取方式是較為粗糙的,一些分散的正文信息可能就會(huì)被這種方法遺漏。
由于HTML標(biāo)簽通常具有某種象征意義,除了顯示的語(yǔ)法,還體現(xiàn)了模塊在網(wǎng)頁(yè)中的功能:如p、img、table等等,HTML的DOM(Document Object Model文本對(duì)象模型)樹也能體現(xiàn)網(wǎng)頁(yè)的視覺布局結(jié)構(gòu)和邏輯結(jié)構(gòu)。因此,應(yīng)用DOM樹進(jìn)行正文提取的相關(guān)論文有很多,將HTML解析為Dom 樹,并用兩個(gè)過(guò)濾步驟得到正文:過(guò)濾標(biāo)簽、過(guò)濾廣告等內(nèi)容,這種過(guò)濾方式是基于HTML標(biāo)簽的功能定義的:如用href、src等關(guān)鍵詞比例過(guò)濾含有鏈接的內(nèi)容,并認(rèn)為這些內(nèi)容很可能是廣告,這種方式固然對(duì)大部分網(wǎng)站能夠起到算法提出者想要達(dá)到的效果,但是隨著大量非良構(gòu)網(wǎng)站的出現(xiàn),以及網(wǎng)站編排的復(fù)雜(比如某些正文內(nèi)容也可能出現(xiàn)大量鏈接),基于規(guī)則的方法會(huì)出現(xiàn)需要人為不斷更新的問(wèn)題。事實(shí)上,2003年之后,有不少學(xué)者提出很多基于規(guī)則的網(wǎng)頁(yè)分析方法,規(guī)則的復(fù)雜度是在隨著網(wǎng)頁(yè)設(shè)計(jì)的發(fā)展繼續(xù)不斷擴(kuò)增的;例如一種基于DOM樹和標(biāo)簽路徑結(jié)合聚類的記錄提取方法,利用了重復(fù)的內(nèi)容塊有大量相同的分割元素的特點(diǎn)。這是一個(gè)具有較高穩(wěn)定性的無(wú)監(jiān)督學(xué)習(xí)方法,用于提取展示大量重復(fù)記錄的網(wǎng)頁(yè)正文內(nèi)容,如購(gòu)物網(wǎng)站的商品、學(xué)者的論文列表。
除此以外,也有許多模擬人類在看一個(gè)網(wǎng)頁(yè)的時(shí)候使用的基于視覺分塊的方法。微軟提出了一種以視覺為基礎(chǔ)的網(wǎng)站分塊算法VIPS,這個(gè)算法基于一個(gè)使用了13條規(guī)則定義的層級(jí)分塊方式,對(duì)網(wǎng)頁(yè)進(jìn)行了網(wǎng)站語(yǔ)法角度的有效分塊。嚴(yán)格來(lái)說(shuō),這篇文章沒有進(jìn)行網(wǎng)頁(yè)的正文提取,另外,這篇文章也利用了 HTML的DOM結(jié)構(gòu)進(jìn)行分析;還有基于VIPS提出的一個(gè)數(shù)據(jù)記錄提取的方法,在用VIPS進(jìn)行內(nèi)容結(jié)構(gòu)樹的提取,基于兩個(gè)假設(shè):數(shù)據(jù)區(qū)域總是在水平中心和數(shù)據(jù)區(qū)域總是占了整個(gè)網(wǎng)頁(yè)很大面積,從文章結(jié)構(gòu)中提取了數(shù)據(jù)記錄的位置。
近年,還誕生了許多基于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘方法的正文抽取方法。有基于聚類的,也有基于決策樹的。使用的特征被歸為以下幾個(gè)大類:描述獨(dú)立文本塊(元素)的、描述整個(gè)HTML文件(一列的文本塊以及結(jié)構(gòu)信息)的、描述在整個(gè)網(wǎng)頁(yè)中的視覺信息的、以及描述網(wǎng)站中幾個(gè)有相同特征的文本簇的 (如上面提到的重復(fù)記錄)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東電子工業(yè)研究院有限公司,未經(jīng)廣東電子工業(yè)研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110026891.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類型識(shí)別方法以及網(wǎng)頁(yè)類型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪問(wèn)處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)





