[發明專利]一種在線Web新聞內容的抽取方法及系統有效
| 申請號: | 201310173280.1 | 申請日: | 2013-05-10 |
| 公開(公告)號: | CN103246732A | 公開(公告)日: | 2013-08-14 |
| 發明(設計)人: | 吳共慶;李莉;徐喆昊;胡學鋼;吳信東 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/44 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 何梅生 |
| 地址: | 230009 *** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 在線 web 新聞 內容 抽取 方法 系統 | ||
1.一種在線Web新聞內容抽取方法,其特征是按如下步驟進行:
步驟1,使用HTML解析器解析被抽取的Web新聞網頁,得到被抽取的Web新聞網頁的DOM樹;
步驟2,遍歷所述DOM樹,依次訪問所述DOM樹中的每個節點,構建文本節點信息序列和文本節點的標簽路徑信息序列;所述文本節點信息序列中的每個元素有兩個屬性,分別為文本節點和文本節點的標簽路徑;所述標簽路徑信息序列中的每個元素有三個屬性,分別是文本節點的標簽路徑、標簽路徑到達的文本內容和標簽路徑到達的文本節點的個數;所述標簽路徑為所述DOM樹的根節點到節點的節點序列;
步驟3,根據所述標簽路徑信息序列和標簽路徑特征系中每個標簽路徑特征的定義,通過計算構建標簽路徑特征值序列;
所述標簽路徑特征系是由六個不同的標簽路徑特征組成的,分別是文本標簽路徑長度特征、文本標簽路徑比特征、擴展文本標簽路徑長度特征、擴展文本標簽路徑比特征、文本標簽路徑層次比特征和擴展文本標簽路徑層次比特征;
所述標簽路徑特征值序列中的每個元素有七個屬性,分別是:標簽路徑、文本標簽路徑長度特征的值、文本標簽路徑比特征的值、擴展文本標簽路徑長度特征的值、擴展文本標簽路徑比特征的值、文本標簽路徑層次比特征的值和擴展文本標簽路徑層次比特征的值;
所述文本標簽路徑長度特征為標簽路徑到達的文本內容中字符的個數;
所述文本標簽路徑比特征為標簽路徑到達的文本內容中字符的個數與標簽路徑到達的文本節點的個數的比值;
所述擴展文本標簽路徑長度特征為標簽路徑到達的文本內容中標點符號的個數;
所述擴展文本標簽路徑比特征為標簽路徑到達的文本內容中標點符號的個數與標簽路徑到達的文本節點的個數的比值;
所述文本標簽路徑層次比特征為標簽路徑到達的文本內容中字符個數與標簽路徑的層次數的比值;
所述擴展文本標簽路徑層次比特征為標簽路徑到達的文本內容中標點符號的個數與標簽路徑的層次數的比值;
所述標簽路徑的層次數為標簽路徑中標簽的個數;
步驟4,使用加權DS證據理論融合標簽路徑特征值序列,得到標簽路徑綜合特征值序列;所述標簽路徑綜合特征值序列中的每個元素有兩個屬性,分別是標簽路徑和標簽路徑的綜合特征值;所述標簽路徑的綜合特征值是利用加權DS證據理論融合標簽路徑的文本標簽路徑長度特征的值、文本標簽路徑比特征的值、擴展文本標簽路徑長度特征的值、擴展文本標簽路徑比特征的值、文本標簽路徑層次比特征的值和擴展文本標簽路徑層次比特征的值得到的結果;
步驟5,根據所述標簽路徑綜合特征值序列和文本節點信息序列的映射關系,構建文本節點綜合特征值序列;所述文本節點綜合特征值序列中的每個元素有兩個屬性,分別是文本節點和文本節點的綜合特征值;
步驟6,根據文本節點綜合特征值序列抽取Web新聞網頁正文內容。
2.根據權利要求1所述的在線Web新聞內容抽取方法,其特征是:所述步驟5中構建文本節點綜合特征值序列的方法是:根據所述標簽路徑綜合特征值序列中的每個元素的標簽路徑屬性與所述文本節點信息序列中的每個元素的標簽路徑屬性的對應關系,將標簽路徑的綜合特征值分配給對應的文本節點,作為文本節點的綜合特征值,構建文本節點綜合特征值序列。
3.根據權利要求1所述的在線Web新聞內容抽取方法,其特征是:所述步驟6根據文本節點綜合特征值序列抽取Web新聞網頁正文內容的方法是:設置抽取閾值τ,依次訪問所述文本節點綜合特征值序列中的每個元素,若元素的文本節點的綜合特征值大于閾值τ,則抽取元素中的文本節點的文本內容并存儲,直至文本節點綜合特征值序列中的所有元素都被訪問;最終存儲的內容為被抽取的Web新聞網頁的正文內容。
4.一種在線Web新聞內容抽取系統,其特征是由解析模塊、計算模塊、融合模塊和抽取模塊構成;
所述解析模塊根據被抽取的Web新聞網頁的URL地址獲取HTML文本,利用HTML解析器解析HTML文本得到被抽取的Web新聞網頁的DOM樹;
所述計算模塊是由查找單元、文本節點信息獲取單元、標簽路徑信息獲取單元和標簽路徑特征生成單元構成;所述查找單元用于遍歷所述DOM樹,訪問DOM樹中的每個節點,查找出文本節點和文本節點的標簽路徑;所述文本節點信息獲取單元用于構建文本節點信息序列,存儲查找單元查找出的文本節點和文本節點的標簽路徑;所述標簽路徑信息獲取單元用于構建標簽路徑信息序列,存儲標簽路徑、標簽路徑到達的文本內容和標簽路徑到達的文本節點的個數;所述標簽路徑特征生成單元,根據標簽路徑信息序列中存儲的信息計算每個標簽路徑的文本標簽路徑長度特征的值、文本標簽路徑比特征的值、擴展文本標簽路徑長度特征的值、擴展文本標簽路徑比特征的值、文本標簽路徑層次比特征的值和擴展文本標簽路徑層次比特征的值,得到文本標簽路徑特征值序列;
所述融合模塊由加權單元和融合單元構成;所述加權單元用于設置標簽路徑特征系中每個元素的權重;所述融合單元根據加權單元設置的權重,利用加權DS證據理論融合每個標簽路徑的文本標簽路徑長度特征的值、文本標簽路徑比特征的值、擴展文本標簽路徑長度特征的值、擴展文本標簽路徑比特征的值、文本標簽路徑層次比特征的值和擴展文本標簽路徑層次比特征的值得到每個標簽路徑的綜合特征值,最終得到標簽路徑綜合特征值序列;
所述抽取模塊由分配單元、選擇單元和抽取單元構成;所述分配單元根據所述文本節點信息序列中每個元素的標簽路徑屬性和所述標簽路徑綜合特征值序列中每個元素的標簽路徑屬性之間的對應關系,將標簽路徑的綜合特征值分配給對應的文本節點,作為文本節點的綜合特征值,構建文本節點的綜合特征值序列;所述選擇單元用于設置抽取閾值,依次訪問文本節點序列中的每個元素,若元素的文本節點的綜合特征值屬性的值大于抽取閾值,則標記元素中的文本節點為內容節點;所述抽取單元,依次抽取選擇單元標注為內容節點的文本節點的內容并存儲,最終存儲的內容為被抽取的Web新聞網頁的正文內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310173280.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:包括投影透鏡和光導體的車輛前燈
- 下一篇:利用溶劑萃取的方法
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





