[發明專利]一種文本提取方法及裝置有效
| 申請號: | 201410026939.5 | 申請日: | 2014-01-21 |
| 公開(公告)號: | CN103810251B | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 卜湛;伍之昂;曹杰;李秀怡;劉英卓 | 申請(專利權)人: | 南京財經大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京億騰知識產權代理事務所11309 | 代理人: | 陳霽 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 提取 方法 裝置 | ||
技術領域
本發明涉及互聯網領域,具體涉及到一種在超文本傳輸協議源代碼中進行文本提取的方法及裝置。
背景技術
隨著計算機與互聯網技術的快速發展,越來越多的用戶選擇從互聯網中獲取信息,互聯網上的豐富資源以及網絡傳輸的便捷性,使得信息的采集和傳播都大道理空前的水平。在各種信息獲取方式中,網絡搜索是較為常見的一種,各種搜索引擎目前已經成為用戶上網不可少的輔助工具之一。
互聯網上的信息大多以HTML、XHTML以及XML的網頁為載體,但是Web頁面總是包含一些用戶并不是很關心的內容或者對用戶需要搜索的內容無關的內容,例如一些廣告鏈接、不相關的圖片以及大量的導航鏈接,這些信息通常是圍繞在主題信息周圍。這些信息很難被計算機自動識別,大大增加了搜索引擎的索引文件的大小,用戶很難找到所需的信息,降低了搜索的準確度和用戶的體驗,也很難實現智能網頁內容抽取、網頁自動分類、用戶使用興趣挖掘。
在搜索引擎領域,Web正文提取技術是近年來的研究熱點,該技術將互聯網中半結構化的HTML頁面中隱藏的正文信息抽取出來,然后將其轉化為結構化、語義更為清晰的信息呈現給用戶。通常地,從網頁的正文提取最好最準確的方式是通過模板提取,該技術基于特定類型的網頁,歸納總結某種提取規則,創建包裝器(wrapper),制作模板是一個繁瑣的過程。由于,因為不同的網站,具有不同的Web頁面的排版模式,這種情況下,依靠人工制作模板,難以滿足需求。
因此,現有技術很難準確、高效的對HTML文件結構進行分析,提取與主題內容相關的元素。
發明內容
本發明的目的是是提供一種文本提取方法,以實現對HTML文件結構進行分析,提取與主題內容相關的元素的高效準確提取。
為實現上述目的,本發明提供了一種文本提取方法,所述方法包括:
步驟一、預處理給定的網頁的超文本傳輸協議html源碼,以獲取所述源碼中的文本的字符串序列,所述字符串序列包含N個文本行;
步驟二、提取所述字符串序列中每個文本行的特征元素,所述特征元素包含M個屬性;
步驟三、依據第一關聯規則,確定所述字符串序列中的潛在正文行組成的潛在正文塊,所示第一關聯規則由所述特征元素中的所述M個屬性確定。
依照本發明較佳實施例提供的文本提取方法,在所述步驟三之后,還包括:
步驟四、根據滑動窗口方法,對所述潛在正文快進行分割,獲取次級潛在正文塊。
依照本發明較佳實施例提供的文本提取方法,所述步驟四之后,還包括:
獲取每個所述次級潛在正文塊包含的信息量;
根據所述次級潛在正文塊的信息量,確定所述潛在正文塊中的信息塊。
依照本發明較佳實施例提供的文本提取方法,在根據所述次級潛在正文塊的信息量,確定所述潛在正文塊中的信息塊;之后,還包括:
對所述信息塊進行合并,確定最終提取文本。
依照本發明較佳實施例提供的文本提取方法,所述M個屬性包括:所述
文本行及其起始標簽所包含的文本行數量Index;
所述文本行在所述Html源碼中所包含的字節數TextLength;
所述文本行在所述網頁中出現的字節數OutputTextLength;
所述文本行的相對密度Density,所述相對密度為所述文本行在所述網頁中出現的字節數和在所述Html源碼中出現的字節數的比值;
所述文本行包含的超鏈接數LinkNum;
所述文本行包含的圖片超鏈接數和ImgNum。
依照本發明較佳實施例提供的文本提取方法,所述第一關聯規則中包含X個衡量參數,所述衡量參數為:
(A.Middle,B.High’,C.High’,D.High,E.Low’,F.Low);
其中,
(A.Middle)表示文本行是否出現在所述HTML源碼的中間區域;
(B.High’)表示所述文本塊的長度是否高于第一閾值;
(C.High’)表示所述述文本塊的輸出文本長度是否高于第二閾值;
(D.High)表示所述文本塊是否具有高于第三閾值的文本密度;
(E.Low’)表示所述文本塊中的超鏈接數目是否少于第四閾值;
(F.Low)表示所述文本塊中的圖片鏈接數目是否少于第五閾值。
依照本發明較佳實施例提供的文本提取方法,所述步驟四具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京財經大學,未經南京財經大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410026939.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多媒體數據文件的管理方法及智能終端
- 下一篇:內容管理





