日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]基于深度學(xué)習(xí)的網(wǎng)頁(yè)正文抽取方法有效

專利信息
申請(qǐng)?zhí)枺?/td> 202110026891.8 申請(qǐng)日: 2021-01-09
公開(公告)號(hào): CN112667940B 公開(公告)日: 2022-02-18
發(fā)明(設(shè)計(jì))人: 陳前華 申請(qǐng)(專利權(quán))人: 廣東電子工業(yè)研究院有限公司
主分類號(hào): G06F16/957 分類號(hào): G06F16/957;G06N3/04;G06N3/08
代理公司: 北京喆翙知識(shí)產(chǎn)權(quán)代理有限公司 11616 代理人: 葉似錦
地址: 523808 廣東省東莞*** 國(guó)省代碼: 廣東;44
權(quán)利要求書: 查看更多 說(shuō)明書: 查看更多
摘要:
搜索關(guān)鍵詞: 基于 深度 學(xué)習(xí) 網(wǎng)頁(yè) 正文 抽取 方法
【說(shuō)明書】:

發(fā)明公開了基于深度學(xué)習(xí)的網(wǎng)頁(yè)正文抽取方法,包括如下步驟:1)根DOM節(jié)點(diǎn)到葉子DOM節(jié)點(diǎn)的數(shù)據(jù)集準(zhǔn)備;2)根DOM節(jié)點(diǎn)到葉子DOM節(jié)點(diǎn)的數(shù)據(jù)集構(gòu)建;3)對(duì)根DOM節(jié)點(diǎn)到葉子DOM節(jié)點(diǎn)的數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行標(biāo)注;4)利用Fasttext對(duì)路徑的標(biāo)簽進(jìn)行預(yù)訓(xùn)練和編碼;5)訓(xùn)練標(biāo)簽路徑文本的LSTM分類模型;6)LSTM模型對(duì)標(biāo)簽路徑文本進(jìn)行預(yù)測(cè);7)還原抽取到的網(wǎng)頁(yè)正文。本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體是指提高簡(jiǎn)歷網(wǎng)頁(yè)正文抽取正確率的基于深度學(xué)習(xí)的網(wǎng)頁(yè)正文抽取方法。

技術(shù)領(lǐng)域

本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體是指基于深度學(xué)習(xí)的網(wǎng)頁(yè)正文抽取方法。

背景技術(shù)

互聯(lián)網(wǎng)上有大量的公開信息,要獲取這些信息,需要采用一系列的爬取與自然語(yǔ)言處理技術(shù),進(jìn)行網(wǎng)頁(yè)獲取和分析處理,其中,網(wǎng)頁(yè)正文提取是一個(gè)重要研究課題。隨著萬(wàn)維網(wǎng)的發(fā)展,網(wǎng)頁(yè)的功能、樣式結(jié)構(gòu)變得越來(lái)越復(fù)雜,網(wǎng)頁(yè)內(nèi)常常包含大量無(wú)用信息:廣告、外部鏈接、導(dǎo)航欄等等,一般來(lái)說(shuō),我們關(guān)心的只有網(wǎng)頁(yè)的正文內(nèi)容,所謂正文,是網(wǎng)頁(yè)中我們關(guān)心的內(nèi)容信息,包括目標(biāo)文字、圖片、視頻。

研究的正文提取的方法很多,在特定網(wǎng)頁(yè)范圍提供了可觀的準(zhǔn)確率,現(xiàn)有的一種基于不同密度分布的正文提取方法,文章假設(shè)正文內(nèi)容會(huì)集中出現(xiàn),而構(gòu)成HTML的除了標(biāo)簽就是文字,所以認(rèn)為一個(gè)網(wǎng)頁(yè)標(biāo)簽最少的地方就是正文。基于這個(gè)假設(shè),文章作出一個(gè)標(biāo)簽分布圖,這種方法的目標(biāo)是那種正文較為集中的網(wǎng)頁(yè),如新聞網(wǎng)頁(yè)等等,而且這種提取方式是較為粗糙的,一些分散的正文信息可能就會(huì)被這種方法遺漏。

由于HTML標(biāo)簽通常具有某種象征意義,除了顯示的語(yǔ)法,還體現(xiàn)了模塊在網(wǎng)頁(yè)中的功能:如p、img、table等等,HTML的DOM(Document Object Model文本對(duì)象模型)樹也能體現(xiàn)網(wǎng)頁(yè)的視覺布局結(jié)構(gòu)和邏輯結(jié)構(gòu)。因此,應(yīng)用DOM樹進(jìn)行正文提取的相關(guān)論文有很多,將HTML解析為Dom 樹,并用兩個(gè)過(guò)濾步驟得到正文:過(guò)濾標(biāo)簽、過(guò)濾廣告等內(nèi)容,這種過(guò)濾方式是基于HTML標(biāo)簽的功能定義的:如用href、src等關(guān)鍵詞比例過(guò)濾含有鏈接的內(nèi)容,并認(rèn)為這些內(nèi)容很可能是廣告,這種方式固然對(duì)大部分網(wǎng)站能夠起到算法提出者想要達(dá)到的效果,但是隨著大量非良構(gòu)網(wǎng)站的出現(xiàn),以及網(wǎng)站編排的復(fù)雜(比如某些正文內(nèi)容也可能出現(xiàn)大量鏈接),基于規(guī)則的方法會(huì)出現(xiàn)需要人為不斷更新的問(wèn)題。事實(shí)上,2003年之后,有不少學(xué)者提出很多基于規(guī)則的網(wǎng)頁(yè)分析方法,規(guī)則的復(fù)雜度是在隨著網(wǎng)頁(yè)設(shè)計(jì)的發(fā)展繼續(xù)不斷擴(kuò)增的;例如一種基于DOM樹和標(biāo)簽路徑結(jié)合聚類的記錄提取方法,利用了重復(fù)的內(nèi)容塊有大量相同的分割元素的特點(diǎn)。這是一個(gè)具有較高穩(wěn)定性的無(wú)監(jiān)督學(xué)習(xí)方法,用于提取展示大量重復(fù)記錄的網(wǎng)頁(yè)正文內(nèi)容,如購(gòu)物網(wǎng)站的商品、學(xué)者的論文列表。

除此以外,也有許多模擬人類在看一個(gè)網(wǎng)頁(yè)的時(shí)候使用的基于視覺分塊的方法。微軟提出了一種以視覺為基礎(chǔ)的網(wǎng)站分塊算法VIPS,這個(gè)算法基于一個(gè)使用了13條規(guī)則定義的層級(jí)分塊方式,對(duì)網(wǎng)頁(yè)進(jìn)行了網(wǎng)站語(yǔ)法角度的有效分塊。嚴(yán)格來(lái)說(shuō),這篇文章沒有進(jìn)行網(wǎng)頁(yè)的正文提取,另外,這篇文章也利用了 HTML的DOM結(jié)構(gòu)進(jìn)行分析;還有基于VIPS提出的一個(gè)數(shù)據(jù)記錄提取的方法,在用VIPS進(jìn)行內(nèi)容結(jié)構(gòu)樹的提取,基于兩個(gè)假設(shè):數(shù)據(jù)區(qū)域總是在水平中心和數(shù)據(jù)區(qū)域總是占了整個(gè)網(wǎng)頁(yè)很大面積,從文章結(jié)構(gòu)中提取了數(shù)據(jù)記錄的位置。

近年,還誕生了許多基于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘方法的正文抽取方法。有基于聚類的,也有基于決策樹的。使用的特征被歸為以下幾個(gè)大類:描述獨(dú)立文本塊(元素)的、描述整個(gè)HTML文件(一列的文本塊以及結(jié)構(gòu)信息)的、描述在整個(gè)網(wǎng)頁(yè)中的視覺信息的、以及描述網(wǎng)站中幾個(gè)有相同特征的文本簇的 (如上面提到的重復(fù)記錄)。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東電子工業(yè)研究院有限公司,未經(jīng)廣東電子工業(yè)研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202110026891.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說(shuō)明:

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級(jí)中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 91久久国产露脸精品国产 | 国产精品一区二区免费| 日本一区二区在线观看视频| 久久乐国产精品| 国产真实乱偷精品视频免| 亚洲午夜天堂吃瓜在线| 国产伦高清一区二区三区| 亚洲欧美一区二区三区三高潮| 欧美一级日韩一级| 国产精品乱码久久久久久久 | 久久久久国产精品嫩草影院| 日本精品在线一区| 国产中文字幕一区二区三区| 久久国产欧美一区二区三区免费| 视频一区二区三区中文字幕| 国语对白老女人一级hd| 999国产精品999久久久久久| 91久久香蕉| 久久久精品欧美一区二区免费| 最新日韩一区| 久爱视频精品| 久久久久久国产一区二区三区| 精品国产一区二区三区麻豆免费观看完整版| 国产精品一区一区三区| 久久99精| 午夜毛片在线观看| 国产高潮国产高潮久久久91| 欧美xxxxxhd| 夜色av网| 国产午夜精品理论片| 日韩精品久久久久久久的张开腿让 | 91精品视频一区二区| 精品美女一区二区三区| 鲁丝一区二区三区免费观看| 亚洲国产精品激情综合图片| 国久久久久久| 亚洲国产欧美一区二区丝袜黑人| 亚洲国产精品一区二区久久,亚洲午夜| 欧美日韩中文字幕一区二区三区| 亚洲伊人久久影院| 8x8x国产一区二区三区精品推荐| 大bbw大bbw超大bbw| 国产69精品久久久久孕妇不能看 | 国产一级一区二区三区| 欧美日韩国产区| 日韩一级精品视频在线观看| 精品国产乱码久久久久久久| 国产欧美日韩在线观看| 日韩欧美中文字幕精品| 国产色99| 亚洲欧美日韩在线看| 99热久久这里只精品国产www| 国产精品999久久久| 国产精品日韩高清伦字幕搜索| 午夜黄色一级电影| **毛片免费| 亚洲精品一区中文字幕| 91精品视频一区二区| 久爱视频精品| 国产乱人伦偷精品视频免下载| 久久国产这里只有精品| 偷拍自中文字av在线| 午夜av片| 99国产精品99久久久久| 狠狠躁夜夜躁2020| 欧美精品xxxxx| 精品国产一二区| 国产一区中文字幕在线观看| 黄色91在线观看| 午夜电影一区二区三区| 亚洲一二三四区| 久久免费精品国产| 午夜影院一级| 久久国产精品久久久久久电车| 午夜大片男女免费观看爽爽爽尤物| 日韩av在线一区| 午夜电影一区| 欧美在线视频二区| 中日韩欧美一级毛片| 国产欧美日韩精品在线| 91丝袜国产在线播放| 96国产精品视频| 亚洲精品卡一| 亚洲精品无吗| 久久久久久久国产精品视频| 国产精品久久久久久久久久不蜜臀| 国产一区午夜| 黄色香港三级三级三级| 久久久久亚洲最大xxxx| www.午夜av| 国产精品视频免费一区二区| 国产乱了高清露脸对白| 久久网站精品| 午夜看片网站| 国产欧美精品一区二区三区小说 | 欧美激情视频一区二区三区| 午夜电影三级| 国产1区2区3区| 精品国产91久久久久久久 | 亚洲国产aⅴ精品一区二区16| 88国产精品视频一区二区三区| 久久国产欧美视频| 国产日产欧美一区二区| 夜夜嗨av禁果av粉嫩av懂色av| av午夜影院| 亚洲神马久久| 国内自拍偷拍一区| 欧美一区二区精品久久911| 日韩精品乱码久久久久久| 久久久精品观看| 亚洲国产精品美女| 91精品色| 中文字幕在线播放一区| 国产精品综合一区二区三区| 国产91综合一区在线观看| 少妇又紧又色又爽又刺激视频网站 | 国产一区激情| 国产一区二区在线91| 国产人成看黄久久久久久久久| 91精品久久天干天天天按摩| 日本精品在线一区| 亚洲国产99| www亚洲精品| 久久噜噜少妇网站| 天堂av一区二区| 91视频国产一区| 精品国产一区二| 日本一二三四区视频| 国产精品乱码一区二区三区四川人| 精品少妇一区二区三区| 国产性猛交| 三上悠亚亚洲精品一区二区| 国产1区2区3区| 日韩精品免费一区二区在线观看| 99久久免费精品国产免费高清| 91精品系列| 欧美一区亚洲一区| 国产午夜亚洲精品午夜鲁丝片 | 国产日韩欧美网站| 综合色婷婷一区二区亚洲欧美国产 | 亚洲精品www久久久久久广东| 91久久久久久亚洲精品禁果| 日韩美一区二区三区| 5g影院天天爽入口入口| 农村妇女毛片精品久久| 一区二区三区欧美日韩| 少妇高潮一区二区三区99小说| 美女张开腿黄网站免费| 国产黄色一区二区三区| 国产69久久| 亚洲国产精品区| 国产精品日产欧美久久久久| 国产精品剧情一区二区三区| 国产一区二区日韩| 欧美在线视频一区二区三区| 久久久精品观看| 日韩中文字幕区一区有砖一区| 久久精品国语| 国产欧美精品va在线观看| 国产精欧美一区二区三区久久| 97精品久久久午夜一区二区三区| 亚洲第一区国产精品| 久久99精品国产99久久6男男 | 91免费视频国产| 91精品夜夜| 国产日韩欧美精品一区| 亚洲欧美色图在线| 日韩精品免费一区| 亚洲乱亚洲乱妇50p| 国模一区二区三区白浆| 91久久精品久久国产性色也91| 国91精品久久久久9999不卡| 91国产在线看| 欧美黄色一二三区| 在线中文字幕一区| 国产精品久久久久久久久久久久久久久久久久| 国产一区二区在线观看免费| 久久国产精品免费视频| 国产理论片午午午伦夜理片2021| 欧美在线视频三区| 免费毛片a| 91精品啪在线观看国产| 久久久久久久久亚洲精品| 亚洲国产99| 久久久久国产精品www| 四虎精品寂寞少妇在线观看| 国产精品高潮在线| 国产日韩欧美一区二区在线观看| 999偷拍精品视频| 国产乱老一区视频| 国产人成看黄久久久久久久久| 国产精品国产一区二区三区四区 | 欧美极品少妇videossex| 欧美网站一区二区三区| 精品国产九九九 | 欧美日韩久久一区二区| 亚洲精品97久久久babes| bbbbb女女女女女bbbbb国产| 国产一区二区高清视频| 国产乱人伦精品一区二区| 欧美精品一区二区久久久| 日韩精品一区中文字幕| 91日韩一区二区三区| 91夜夜夜| 国产精品免费自拍| 91香蕉一区二区三区在线观看| 精品国产乱码久久久久久久| 国产一级片网站| 午夜情所理论片| 国产91刺激对白在线播放| 亚洲国产欧美一区二区三区丁香婷| 欧美乱妇在线观看| 久久久精品免费看| 国产精品偷伦一区二区| 欧美极品少妇videossex| 日韩欧美多p乱免费视频| 亚洲欧洲日韩在线| 亚洲国产精品女主播| 亚洲欧洲一区二区| 国产精品美女一区二区视频| 91麻豆精品国产91久久| 国产一区二区三区在线电影| 欧美色图视频一区| 69xx国产| 国产精品入口麻豆九色| 中文字幕一区二区三区不卡| 海量av在线| 91精品国产高清一区二区三区| 精品久久不卡| 欧美视屏一区二区| 欧美日韩九区| 色天天综合久久久久综合片| 黄色av免费| 日韩亚洲精品在线| 偷拍自中文字av在线| 国产精品无码永久免费888| 精品免费久久久久久久苍| 美女直播一区二区三区| 欧美精品一区二区性色| 日韩国产精品久久久久久亚洲| 一区二区三区四区视频在线| 国产精品理人伦一区二区三区| 日韩欧美中文字幕精品| 国产日韩精品一区二区 | 日韩精品久久一区二区| 精品国产一区在线|