[發明專利]基于馬爾可夫隨機場的網頁正文提取方法有效
| 申請號: | 201310210384.5 | 申請日: | 2013-05-30 |
| 公開(公告)號: | CN103309961A | 公開(公告)日: | 2013-09-18 |
| 發明(設計)人: | 柳立寧 | 申請(專利權)人: | 北京智海創訊信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京愛普納杰專利代理事務所(特殊普通合伙) 11419 | 代理人: | 王玉松;孟麗娟 |
| 地址: | 100095 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 馬爾可夫 隨機 網頁 正文 提取 方法 | ||
技術領域
本發明關于一種網頁正文的提取方法,特別是涉及一種基于馬爾可夫隨機場的網頁正文提取方法
背景技術
網絡的飛速發展帶來了海量的網絡信息,如何抽取所需要的網絡信息越來越被人們所關注。目前,網頁上提供的數據基本上由非結構化的靜態的超文本鏈接標示語言(HTML,Hypertext?Markup?Language)代碼構成,其不能被信息分析系統直接使用,往往需要進行信息提取才能進行后續處理。網絡信息抽取就是指從網頁這樣的半結構化文檔中抽取出結構化信息。這些網頁往往由服務器端的應用程序自動生成。網絡信息抽取而生成的結構化信息為網絡挖掘、網絡檢索等重要網絡應用提供了最基礎的分析數據,因此網絡信息提取方法的研究具有非常重要的現實意義。
網絡信息抽取的對象可以分為兩大類:一類是抽取網頁中的特定知識,即特定領域、特定網站或特定格式的信息,如商品信息等;另一類是抽取網頁中的內容,即主題內容或興趣區域等,本發明之網頁正文抽取屬于后一類。
互聯網上的很多網頁主要由以下幾類信息組成:導航信息、網頁標題、網頁正文、廣告信息、版權信息和相關鏈接等。其中,網頁要表達的信息主要集中在網頁標題和網頁正文中,尤其是網頁正文中。因此,信息檢索、自動分類、話題跟蹤、機器翻譯和文本摘要等重要的網絡信息處理應用主要關注網頁中的標題和正文,尤其是正文。然而,導航信息、廣告信息、版權信息和相關鏈接等噪音信息在很大程度上干擾了網頁信息的利用效果。例如,這些噪音信息會影響信息檢索的效率、導致信息檢索準確率的下降等。因此,如何快速準確地從網頁中抽取出正文,提高網頁的信息質量,已經成為信息檢索等重要網絡信息處理系統的必不可少的基礎工作。
現有網頁正文的提取方法一般有以下幾類:
1、基于包裝器的網頁正文提取方法:包裝器是一段程序,它根據一定的信息模式識別規則,從特定的信息源中抽取相關內容。由于網頁結構的復雜性及不規范性,一個包裝器的實現一般只能針對一個信息源。而要處理的網頁往往來自大量的不同信息源,如果采用這類方法,包裝器的生成和維護代價是巨大的,因此,這類方法對于網頁的正文抽取是不合適的。
2、基于統計的網頁正文提取方法:這種方法從頁面的不同角度分析它的統計特征,采用統計學的算法抽取正文,例如根據統計的文字數量、鏈接數量、標簽字符數量等計算出文本密度、鏈接密度等,并通過這些值來判斷哪些為正文文本、哪些為噪音內容。這種方法實現簡單,并且不需要編寫包裝器,但提取的準確率有限,有時會將與正文無關的版權聲明等當作正文內容提取出來。
發明內容
為克服上述現有技術存在的不足,本發明之目的在于提供一種基于馬爾可夫隨機場的網頁正文提取方法,其可以應用于信息檢索領域的自動文摘和自動分類系統,抽取精度高、抽取速度快、維護代價低,具有適應性強、靈活性高等特點。
為達上述及其它目的,本發明提出一種基于馬爾可夫隨機場的網頁正文提取方法,包括如下步驟:
步驟一,順序解析HTML文本,對HTML文本進行預處理;
步驟二,對預處理后的HTML文本抽取標簽文本窗,獲得標簽文本窗集合,標簽文本窗為標簽包圍的內容文本及其相關屬性;
步驟三,對標簽文本窗集合中的標簽文本窗依據相鄰關系構建馬爾可夫隨機場模型;
步驟四,以文本長度和標簽類型為基本特征,采用最小偏差閾值法初始化馬爾可夫場模型;
步驟五,根據標簽文本窗的行號及相鄰窗的字符間隔,采用ICM方法對構建的馬爾科夫隨機場模型進行優化;以及
步驟六,根據優化后的馬爾科夫隨機場模型重構正文,得到抽取的正文。
進一步地,在步驟三之前還包括確定網頁的Foot部分的起始邊界,去除位于Foot部分的標簽文本窗對正文提取的干擾的步驟。
進一步地,步驟一中,預處理步驟以正則表達式中的回車符或換行符為標記分隔符,將HTML文本按行依次讀入存儲單元,當前行不包含行分隔標記,并依據噪聲標簽列表去除當前行的噪聲標簽字符,記錄當前行序號及行末偏移位置,搜索定位標簽“<head>”、標簽“<body>”,確定標簽Head和標簽Body的起始偏移位置。
進一步地,相關屬性包括文本Text、標簽Tag、文本起始偏移位置pos、所在行序號para、標簽文本窗集合序號index、標簽窗位置標記body以及分類屬性label。
進一步地,步驟二還包括如下步驟:
步驟1.1初始化搜索起始位置position=0,標簽文本窗集Θ為空集,標簽文本窗序號k=0;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智海創訊信息技術有限公司,未經北京智海創訊信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310210384.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:發動機配氣機構
- 下一篇:一種把手可曲的多功能手電筒





