[發(fā)明專利]一種使用上下文環(huán)境規(guī)則的網(wǎng)頁(yè)數(shù)據(jù)獲取方法在審
| 申請(qǐng)?zhí)枺?/td> | 201611271569.7 | 申請(qǐng)日: | 2016-12-29 |
| 公開(公告)號(hào): | CN108255895A | 公開(公告)日: | 2018-07-06 |
| 發(fā)明(設(shè)計(jì))人: | 孫翔 | 申請(qǐng)(專利權(quán))人: | 孫翔 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210000 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 內(nèi)容提取 提取規(guī)則 網(wǎng)頁(yè)數(shù)據(jù) 上下文環(huán)境 上下文屬性 規(guī)則匹配 語(yǔ)法 匹配條件 數(shù)據(jù)提取 數(shù)據(jù)挖掘 同一頁(yè)面 語(yǔ)法定義 語(yǔ)法模式 算法 應(yīng)用 融合 分類 升級(jí) 繼承 學(xué)習(xí) | ||
本發(fā)明公開了一種使用上下文環(huán)境規(guī)則的網(wǎng)頁(yè)數(shù)據(jù)獲取方法,包括內(nèi)容提取規(guī)則和規(guī)則匹配算法,所述內(nèi)容提取規(guī)則主要是由用戶根據(jù)提取規(guī)則語(yǔ)法自行定義,內(nèi)容提取規(guī)則采用了樹狀繼承結(jié)構(gòu),提取規(guī)則語(yǔ)法采用的是一種條件?行動(dòng)語(yǔ)法模式,條件部分包括DOM節(jié)點(diǎn)屬性和上下文屬性,行動(dòng)部分包括給匹配條件的節(jié)點(diǎn)進(jìn)行分類、升級(jí)上下文屬性、應(yīng)用特定的某種內(nèi)容提取技術(shù)。本發(fā)明通過融合多種數(shù)據(jù)挖掘領(lǐng)域主要數(shù)據(jù)提取技術(shù),并在此基礎(chǔ)上實(shí)現(xiàn)更為精確的網(wǎng)頁(yè)數(shù)據(jù)提取效果,本方法方案提取規(guī)則語(yǔ)法定義簡(jiǎn)單,容易學(xué)習(xí),易于使用,編寫效率高,通過規(guī)則匹配條件實(shí)現(xiàn)了同一頁(yè)面不同提取方法的精確應(yīng)用,內(nèi)容提取質(zhì)量高于現(xiàn)有同類產(chǎn)品。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,具體是一種使用上下文環(huán)境規(guī)則的網(wǎng)頁(yè)數(shù)據(jù)獲取方法。
背景技術(shù)
網(wǎng)頁(yè)內(nèi)容獲取是一個(gè)復(fù)雜的過程,它包括確定頁(yè)面的哪一部分包含核心文本內(nèi)容,忽略掉與豐題無關(guān)的內(nèi)容,如頭部、腳注、導(dǎo)航條、廣告等,其中在這些步驟中最關(guān)鍵的是識(shí)別出核心文本內(nèi)容。識(shí)別核心文本有著廣泛的應(yīng)用,如生成文本索引、生成網(wǎng)頁(yè)摘要、為有視覺缺陷的用戶提供網(wǎng)頁(yè)朗讀功能、為小屏幕智能設(shè)備提供被優(yōu)化的網(wǎng)頁(yè)內(nèi)容。在這些應(yīng)用中網(wǎng)頁(yè)內(nèi)部任何哪怕非常少量的無關(guān)信息未被過濾都會(huì)給用戶的閱讀造成困擾。目前計(jì)算機(jī)業(yè)界已經(jīng)出現(xiàn)了專門用于提取網(wǎng)頁(yè)核心內(nèi)容的產(chǎn)品,如Lixto、Kapowtech、Mozenda,這些產(chǎn)品使用的提取策略各不相同,有的使用DOM樹方法,有的使用可視文本塊方法,也有的使用密度方法;這些方法都有自己不同的適用場(chǎng)合,單純采用一種方法在特定頁(yè)面的提取中不一定能夠?qū)崿F(xiàn)較為理想的內(nèi)容提取效果;如何能夠設(shè)計(jì)一種工具整合上述不同的提取技術(shù),并能提供網(wǎng)頁(yè)不同部分所應(yīng)使用理想技術(shù)的判別功能就顯得相當(dāng)重要。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種使用上下文環(huán)境規(guī)則的網(wǎng)頁(yè)數(shù)據(jù)獲取方法,以解決上述背景技術(shù)中提出的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種使用上下文環(huán)境規(guī)則的網(wǎng)頁(yè)數(shù)據(jù)獲取方法,包括內(nèi)容提取規(guī)則和規(guī)則匹配算法,所述內(nèi)容提取規(guī)則主要是由用戶根據(jù)提取規(guī)則語(yǔ)法自行定義,內(nèi)容提取規(guī)則采用了樹狀繼承結(jié)構(gòu),提取規(guī)則語(yǔ)法采用的是一種條件-行動(dòng)語(yǔ)法模式,條件部分包括DOM節(jié)點(diǎn)屬性和上下文屬性,DOM節(jié)點(diǎn)屬性包括標(biāo)簽名、節(jié)點(diǎn)類名、節(jié)點(diǎn)ID、節(jié)點(diǎn)字體名、節(jié)點(diǎn)寬度屬性、節(jié)點(diǎn)高度屬性和DOM節(jié)點(diǎn)內(nèi)部的一些計(jì)算值;行動(dòng)部分包括給匹配條件的節(jié)點(diǎn)進(jìn)行分類、升級(jí)上下文屬性、應(yīng)用特定的某種內(nèi)容提取技術(shù)。
作為本發(fā)明進(jìn)一步的方案:所述上下文屬性主要有cSection、cBlock,cTitle、cFont、cTextColor、cBackColor。
作為本發(fā)明再進(jìn)一步的方案:所述節(jié)點(diǎn)可以分為兩類,核心內(nèi)容節(jié)點(diǎn)和噪音節(jié)點(diǎn)。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明通過融合多種數(shù)據(jù)挖掘領(lǐng)域主要數(shù)據(jù)提取技術(shù),并在此基礎(chǔ)上引入上下文屬性和節(jié)點(diǎn)屬性功能的來實(shí)現(xiàn)更為精確的網(wǎng)頁(yè)數(shù)據(jù)提取效果,本方法方案提取規(guī)則語(yǔ)法定義簡(jiǎn)單,提取規(guī)則采用層級(jí)方式實(shí)現(xiàn),不需要用戶對(duì)計(jì)算機(jī)相關(guān)技術(shù),容易學(xué)習(xí),易于使用,編寫效率高,通過規(guī)則匹配條件實(shí)現(xiàn)了同一頁(yè)面不同提取方法的精確應(yīng)用,內(nèi)容提取質(zhì)量高于現(xiàn)有同類產(chǎn)品。
附圖說明
圖1為使用上下文環(huán)境規(guī)則的網(wǎng)頁(yè)數(shù)據(jù)獲取方法具體實(shí)現(xiàn)的偽碼圖。
具體實(shí)施方式
下面結(jié)合具體實(shí)施方式對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步詳細(xì)地說明。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于孫翔,未經(jīng)孫翔許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611271569.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息處理裝置和方法、程序、以及記錄介質(zhì)
- 一種智能提取內(nèi)容對(duì)象的方法及系統(tǒng)
- 便攜式電子設(shè)備和用于內(nèi)容選擇的提示方法
- 內(nèi)容提取方法
- 內(nèi)容提取裝置、內(nèi)容提取方法和程序
- 網(wǎng)頁(yè)內(nèi)容提取方法和網(wǎng)頁(yè)內(nèi)容提取裝置
- 內(nèi)容提取方法、內(nèi)容提取裝置和用于內(nèi)容提取的系統(tǒng)
- 文本內(nèi)容提取方法、裝置、系統(tǒng)及存儲(chǔ)介質(zhì)
- 提取網(wǎng)頁(yè)內(nèi)容的方法和網(wǎng)頁(yè)內(nèi)容提取裝置
- 一種網(wǎng)頁(yè)內(nèi)容提取的方法及裝置
- 生成用于基于統(tǒng)計(jì)的機(jī)器翻譯的規(guī)則的方法和設(shè)備
- 網(wǎng)頁(yè)內(nèi)容的提取方法、裝置及系統(tǒng)
- 外掛樣本提取的方法及系統(tǒng)
- 一種使用上下文環(huán)境規(guī)則的網(wǎng)頁(yè)數(shù)據(jù)獲取方法
- 網(wǎng)頁(yè)處理方法及裝置
- 控件內(nèi)容獲取方法、裝置及存儲(chǔ)介質(zhì)
- 內(nèi)容提取方法、裝置、終端及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)提取規(guī)則的確定方法、裝置、計(jì)算機(jī)設(shè)備和介質(zhì)
- 一種基于強(qiáng)化學(xué)習(xí)的規(guī)則提取方法及應(yīng)用
- 一種基于樂觀概念的故障檢測(cè)決策規(guī)則提取方法
- 網(wǎng)頁(yè)數(shù)據(jù)自動(dòng)填充系統(tǒng)及方法
- 網(wǎng)頁(yè)數(shù)據(jù)更新方法及應(yīng)用該方法的電子裝置
- 數(shù)據(jù)顯示方法及終端設(shè)備
- 一種數(shù)據(jù)管理方法和系統(tǒng)
- 檢測(cè)網(wǎng)頁(yè)數(shù)據(jù)真?zhèn)蔚姆椒ê脱b置
- 網(wǎng)頁(yè)數(shù)據(jù)捕獲設(shè)備及其網(wǎng)頁(yè)數(shù)據(jù)擷取方法
- 網(wǎng)頁(yè)數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 網(wǎng)頁(yè)數(shù)據(jù)采集方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 網(wǎng)頁(yè)數(shù)據(jù)的處理方法及裝置、存儲(chǔ)介質(zhì)、計(jì)算機(jī)設(shè)備
- 網(wǎng)頁(yè)數(shù)據(jù)加載方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 用于知曉上下文的平臺(tái)的系統(tǒng)和方法
- 一種面向普適計(jì)算環(huán)境的構(gòu)件化上下文處理方法
- 一種基于上下文感知的智能家居系統(tǒng)
- 面向普適環(huán)境的上下文感知中間件構(gòu)造方法及裝置
- 基于虛擬終端上下文環(huán)境感知的多終端重構(gòu)系統(tǒng)和方法
- 一種共享環(huán)境上下文方法和裝置
- 多租戶環(huán)境中的安全性上下文管理的方法、系統(tǒng)和介質(zhì)
- 利用上下文信息片段管理虛擬執(zhí)行環(huán)境的方法和裝置
- 上下文環(huán)境信息的傳遞方法、裝置、服務(wù)網(wǎng)關(guān)及存儲(chǔ)介質(zhì)
- 一種基于編程現(xiàn)場(chǎng)環(huán)境上下文的搜索方法





