[發(fā)明專利]一種在線Web新聞內(nèi)容抽取系統(tǒng)有效
| 申請?zhí)枺?/td> | 201610055006.8 | 申請日: | 2013-05-10 |
| 公開(公告)號: | CN105740370B | 公開(公告)日: | 2018-11-06 |
| 發(fā)明(設(shè)計)人: | 吳共慶;李莉;徐喆昊;胡學(xué)鋼;吳信東 | 申請(專利權(quán))人: | 合肥工業(yè)大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 在線 web 新聞 內(nèi)容 抽取 系統(tǒng) | ||
1.一種在線Web新聞內(nèi)容抽取系統(tǒng),其特征是由解析模塊、計算模塊、融合模塊和抽取模塊構(gòu)成;
所述解析模塊根據(jù)被抽取的Web新聞網(wǎng)頁的URL地址獲取HTML文本,利用HTML解析器解析HTML文本得到被抽取的Web新聞網(wǎng)頁的DOM樹;
所述計算模塊是由查找單元、文本節(jié)點信息獲取單元、標簽路徑信息獲取單元和標簽路徑特征生成單元構(gòu)成;所述查找單元用于遍歷所述DOM樹,訪問DOM樹中的每個節(jié)點,查找出文本節(jié)點和文本節(jié)點的標簽路徑;所述文本節(jié)點信息獲取單元用于構(gòu)建文本節(jié)點信息序列,存儲查找單元查找出的文本節(jié)點和文本節(jié)點的標簽路徑;所述標簽路徑信息獲取單元用于構(gòu)建標簽路徑信息序列,存儲標簽路徑、標簽路徑到達的文本內(nèi)容和標簽路徑到達的文本節(jié)點的個數(shù);所述標簽路徑特征生成單元,根據(jù)標簽路徑信息序列中存儲的信息計算每個標簽路徑的文本標簽路徑長度特征的值、文本標簽路徑比特征的值、擴展文本標簽路徑長度特征的值、擴展文本標簽路徑比特征的值、文本標簽路徑層次比特征的值和擴展文本標簽路徑層次比特征的值,得到文本標簽路徑特征值序列;
所述融合模塊由加權(quán)單元和融合單元構(gòu)成;所述加權(quán)單元用于設(shè)置標簽路徑特征系中每個元素的權(quán)重;所述融合單元根據(jù)加權(quán)單元設(shè)置的權(quán)重,利用加權(quán)DS證據(jù)理論融合每個標簽路徑的文本標簽路徑長度特征的值、文本標簽路徑比特征的值、擴展文本標簽路徑長度特征的值、擴展文本標簽路徑比特征的值、文本標簽路徑層次比特征的值和擴展文本標簽路徑層次比特征的值得到每個標簽路徑的綜合特征值,最終得到標簽路徑綜合特征值序列;
所述抽取模塊由分配單元、選擇單元和抽取單元構(gòu)成;所述分配單元根據(jù)所述文本節(jié)點信息序列中每個元素的標簽路徑屬性和所述標簽路徑綜合特征值序列中每個元素的標簽路徑屬性之間的對應(yīng)關(guān)系,將標簽路徑的綜合特征值分配給對應(yīng)的文本節(jié)點,作為文本節(jié)點的綜合特征值,構(gòu)建文本節(jié)點的綜合特征值序列;所述選擇單元用于設(shè)置抽取閾值,依次訪問文本節(jié)點序列中的每個元素,若元素的文本節(jié)點的綜合特征值屬性的值大于抽取閾值,則標記元素中的文本節(jié)點為內(nèi)容節(jié)點;所述抽取單元,依次抽取選擇單元標注為內(nèi)容節(jié)點的文本節(jié)點的內(nèi)容并存儲,最終存儲的內(nèi)容為被抽取的Web新聞網(wǎng)頁的正文內(nèi)容;
所述標簽路徑特征系是由六個不同的標簽路徑特征組成的,分別是文本標簽路徑長度特征、文本標簽路徑比特征、擴展文本標簽路徑長度特征、擴展文本標簽路徑比特征、文本標簽路徑層次比特征和擴展文本標簽路徑層次比特征;所述文本標簽路徑長度特征為標簽路徑到達的文本內(nèi)容中字符的個數(shù);所述文本標簽路徑比特征為標簽路徑到達的文本內(nèi)容中字符的個數(shù)與標簽路徑到達的文本節(jié)點的個數(shù)的比值;所述擴展文本標簽路徑長度特征為標簽路徑到達的文本內(nèi)容中標點符號的個數(shù);所述擴展文本標簽路徑比特征為標簽路徑到達的文本內(nèi)容中標點符號的個數(shù)與標簽路徑到達的文本節(jié)點的個數(shù)的比值;所述文本標簽路徑層次比特征為標簽路徑到達的文本內(nèi)容中字符個數(shù)與標簽路徑的層次數(shù)的比值;所述擴展文本標簽路徑層次比特征為標簽路徑到達的文本內(nèi)容中標點符號的個數(shù)與標簽路徑的層次數(shù)的比值;所述標簽路徑的層次數(shù)為標簽路徑中標簽的個數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于合肥工業(yè)大學(xué),未經(jīng)合肥工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610055006.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 提供共享Web模塊的系統(tǒng)和方法
- 管理環(huán)球網(wǎng)網(wǎng)頁中的環(huán)球網(wǎng)媒體的系統(tǒng)及其實現(xiàn)方法
- 一種WEB業(yè)務(wù)實現(xiàn)系統(tǒng)、裝置及方法
- 高速緩存廣播信息的方法和裝置
- 基于QoS指標和Web服務(wù)輸出參數(shù)的Web服務(wù)組合方法和裝置
- Web托管審查方法、裝置及Web托管系統(tǒng)
- 用于信息處理和Web瀏覽歷史導(dǎo)航的方法和設(shè)備及電子裝置
- 用于將web站點轉(zhuǎn)換為目標web app站點的方法和裝置
- 用于防護WEB漏洞的方法和設(shè)備
- 一種Web攻擊報告生成方法、裝置、設(shè)備及計算機介質(zhì)
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





