[發明專利]一種網頁標題提取方法及裝置有效
| 申請號: | 201310110854.0 | 申請日: | 2013-04-01 |
| 公開(公告)號: | CN103218420A | 公開(公告)日: | 2013-07-24 |
| 發明(設計)人: | 劉桂林;王呈祥;李勛;李振釗;趙威;劉秀磊 | 申請(專利權)人: | 北京鵬宇成軟件技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京匯澤知識產權代理有限公司 11228 | 代理人: | 亓贏 |
| 地址: | 100088 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 標題 提取 方法 裝置 | ||
技術領域
本發明涉及一種網頁信息提取技術,具體地說,是一種網頁標題提取方法及裝置。
背景技術
網頁標題是對一個網頁內容的高度概括,如同一篇文章的標題之于文章。對于網頁的瀏覽者來說,網頁標題的內容很大度上決定了瀏覽者是否會瀏覽一個網頁。所以目前的主流搜索引擎如百度和谷歌的算法中網頁的標題都有著最高的頁面級權重,因此提取網頁的標題是十分必要的。
目前來說,對于網頁的標題的提取方法有以下幾類:1.使用網頁的解析技術,提取特定標簽里面的內容。例如,HTML有一個名為“title”的標簽,該標簽的作用就在于指明一個網頁的標題。然而,使用此方法獲取標題有很明顯的缺陷,如果網頁的編寫者并沒有將正確標題寫入該域,或者甚至沒有“title”這個標簽,那么用這種方法是提取不到正確標題的。實際上,出于各種原因,許多網頁的編寫者并沒有按照規范的格式編寫網頁,導致大量的網頁都不能用這種方法提取到正確的標題。2.根據規則的方法提取標題。由于某些系統或子系統的網頁排版及格式通常是一定的。例如,對于某個系統的新聞版面,?我們曾得到這樣的規則,標題的后面緊跟的是這樣的文字“發布日期[xxxx-xx-xx]”(每個x是0-9的數字),于是,我們就能用這樣的規則把這個新聞版面的部分網頁標題抽取出來。然而,這個方法的缺陷也很明顯,即擴展性太差,準確率不高。擴展性差是因為對于新的格式的網頁,這個方法不能有效工作;準確率不高是因為這一規則是根據這些網頁總結出來的,它可能適用于該系統或子系統大部分的網頁,而準確率取決于該規則適用網頁所占總網頁的比率。
發明內容
本發明要解決的技術問題是提供一種擴展性好、準確率高的網頁標題提取方法及裝置。
為了解決上述技術問題,本發明提供了一種網頁標題提取方法,包括:
構造訓練集,將訓練集中的每個網頁解析為文本塊及其屬性值的序列,標注這些文本塊的類別,將屬性值序列和對應的類別處理成分類器能夠識別的第一屬性向量;
利用訓練集訓練分類器;
將需要處理的網頁解析為多個文本塊及屬性值的序列,將這些屬性值的序列處理成分類器能夠識別的第二屬性向量;
利用分類器根據訓練結果將所述第二屬性向量分類,鑒別出該第二屬性向量是否為標題類別,得到類別為標題的文本塊及其屬性值序列的集合。
進一步地,所述利用分類器根據訓練結果將所述第二屬性向量分類時,采用K近鄰分類法、決策樹分類法、貝葉斯分類法或支持向量機分類法分類。
進一步地,按照屬性向量的種類選擇正確率最高的分類器進行分類,具體方法為:
根據定義的屬性值序列構造屬性樹,使每種屬性值序列對應于一個葉子節點;
對訓練集預測,獲得各分類器在各種屬性值的正確率,記錄在屬性樹上;
對需要預測的屬性值序列在屬性樹上查找預測準確率最高的分類器,用該分類器對其分類。
進一步地,根據定義的屬性值序列構造屬性樹時,如果某個屬性值不是離散的而是連續的,對該屬性值進行離散化處理。
進一步地,對所述類別為標題的文本塊及其屬性值序列的集合中的文本塊或屬性值序列進行二次鑒別,得出最終的網頁標題。
本發明還提供了一種網頁標題提取裝置,包括:
網頁解析模塊,用于將用作訓練集的網頁解析為文本塊及其屬性值的序列,還用于將待分析處理的網頁解析為多個文本塊及屬性值的序列,并將這些屬性值的序列處理成分類器能夠識別的第二屬性向量;
訓練集構造模塊,用于標注從作為訓練集的網頁解析得到的文本塊的類別,將屬性值序列和對應的類別處理成分類器能夠識別的第一屬性向量;
分類器構造模塊,用于利用所述訓練集訓練分類器;
分類器,用于根據訓練結果將所述第二屬性向量分類,鑒別出該第二屬性向量是否為標題類別,得到類別為標題的文本塊及其屬性值序列的集合。(還需要二次鑒別才能將集合中某個序列對應的文本作為標題)
進一步地,所述分類器根據訓練結果將所述第二屬性向量分類時,采用K近鄰分類法、決策樹分類法、貝葉斯分類法或支持向量機分類法分類。
進一步地,所述分類器按照屬性向量的種類選擇正確率最高的分類器進行分類,具體方法為:
根據定義的屬性值序列構造屬性樹,使每種屬性值序列對應于一個葉子節點;
對訓練集預測,獲得各分類器在各種屬性值的正確率,記錄在屬性樹上;
對需要預測的屬性值序列在屬性樹上查找預測準確率最高的分類器,用該分類器對其分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京鵬宇成軟件技術有限公司,未經北京鵬宇成軟件技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310110854.0/2.html,轉載請聲明來源鉆瓜專利網。





