[發(fā)明專利]瀏覽質(zhì)量的評(píng)估方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201210242504.5 | 申請(qǐng)日: | 2012-07-12 |
| 公開(kāi)(公告)號(hào): | CN103544170A | 公開(kāi)(公告)日: | 2014-01-29 |
| 發(fā)明(設(shè)計(jì))人: | 于高;薛林波 | 申請(qǐng)(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京清亦華知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 宋合成;黃德海 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 瀏覽 質(zhì)量 評(píng)估 方法 裝置 | ||
1.一種瀏覽質(zhì)量的評(píng)估方法,其特征在于,包括:
獲取第三方站點(diǎn)的待測(cè)頁(yè)面,并分析所述待測(cè)頁(yè)面以獲得第一原始特征集;
對(duì)所述待測(cè)頁(yè)面進(jìn)行轉(zhuǎn)碼以生成轉(zhuǎn)碼后的待測(cè)頁(yè)面,并獲得所述待測(cè)頁(yè)面的結(jié)構(gòu)化特征集;
對(duì)所述轉(zhuǎn)碼后的待測(cè)頁(yè)面進(jìn)行分析以獲得第二原始特征集;
按照預(yù)設(shè)的組合規(guī)則將所述第一原始特征集、第二原始特征集和所述結(jié)構(gòu)化特征集進(jìn)行組合以生成組合特征集;以及
根據(jù)預(yù)設(shè)的評(píng)估模型和所述組合特征集對(duì)所述待測(cè)頁(yè)面進(jìn)行質(zhì)量評(píng)估。
2.如權(quán)利要求1所述的瀏覽質(zhì)量的評(píng)估方法,其特征在于,所述評(píng)估模型通過(guò)以下步驟得到:
建立訓(xùn)練樣本庫(kù),所述訓(xùn)練樣本庫(kù)中包括多個(gè)訓(xùn)練樣本;
對(duì)所述訓(xùn)練樣本庫(kù)中的每個(gè)訓(xùn)練樣本進(jìn)行特征提取,并生成每個(gè)訓(xùn)練樣本對(duì)應(yīng)的訓(xùn)練特征集;
根據(jù)機(jī)器學(xué)習(xí)算法對(duì)所述訓(xùn)練特征集進(jìn)行處理以生成所述評(píng)估模型。
3.如權(quán)利要求2所述的瀏覽質(zhì)量的評(píng)估方法,其特征在于,所述訓(xùn)練樣本包括URL列表和URL列表中每個(gè)URL對(duì)應(yīng)的人工評(píng)估結(jié)果。
4.如權(quán)利要求1所述的瀏覽質(zhì)量的評(píng)估方法,其特征在于,還包括:
根據(jù)所述待測(cè)頁(yè)面的頁(yè)面類型選擇對(duì)應(yīng)的組合規(guī)則。
5.如權(quán)利要求1-4任一項(xiàng)所述的瀏覽質(zhì)量的評(píng)估方法,其特征在于,所述第一原始特征集和第二原始特征集分別包括轉(zhuǎn)碼前和轉(zhuǎn)碼后的所述待測(cè)頁(yè)面中的文字、圖片、動(dòng)畫(huà)的數(shù)量和面積信息。
6.如權(quán)利要求1-5任一項(xiàng)所述的瀏覽質(zhì)量的評(píng)估方法,其特征在于,所述獲得所述待測(cè)頁(yè)面的結(jié)構(gòu)化特征集進(jìn)一步包括:
對(duì)所述待測(cè)頁(yè)面進(jìn)行結(jié)構(gòu)化分析,以獲得所述待測(cè)頁(yè)面的頁(yè)面類型和內(nèi)容塊;
對(duì)所述待測(cè)頁(yè)面的內(nèi)容進(jìn)行分析以獲得所述待測(cè)頁(yè)面的結(jié)構(gòu)化特征。
7.如權(quán)利要求6所述的瀏覽質(zhì)量的評(píng)估方法,其特征在于,所述結(jié)構(gòu)化特征包括所述待測(cè)頁(yè)面中的標(biāo)題、圖標(biāo)和聯(lián)系方式中的一種或多種。
8.一種瀏覽質(zhì)量的評(píng)估裝置,其特征在于,包括:
頁(yè)面獲取模塊,用于獲取第三方站點(diǎn)的待測(cè)頁(yè)面;
轉(zhuǎn)碼模塊,用于對(duì)所述待測(cè)頁(yè)面進(jìn)行轉(zhuǎn)碼以生成轉(zhuǎn)碼后的待測(cè)頁(yè)面,并獲得所述待測(cè)頁(yè)面的結(jié)構(gòu)化特征集;
分析模塊,用于對(duì)所述待測(cè)頁(yè)面進(jìn)行分析以獲得第一原始特征集,以及對(duì)所述轉(zhuǎn)碼后的待測(cè)頁(yè)面進(jìn)行分析以獲得第二原始特征集;
組合模塊,用于按照預(yù)設(shè)的組合規(guī)則將所述第一原始特征集、第二原始特征集和所述結(jié)構(gòu)化特征集進(jìn)行組合以生成組合特征集;以及
質(zhì)量評(píng)估模塊,用于建立評(píng)估模型,并根據(jù)所述評(píng)估模型和所述組合特征集對(duì)所述待測(cè)頁(yè)面進(jìn)行質(zhì)量評(píng)估。
9.如權(quán)利要求8所述的瀏覽質(zhì)量的評(píng)估裝置,其特征在于,所述質(zhì)量評(píng)估模塊包括:
接收單元,用于接收來(lái)自所述組合模塊的所述組合特征集;
模型建立單元,用于建立訓(xùn)練樣本庫(kù),以及對(duì)所述訓(xùn)練樣本庫(kù)中的每個(gè)訓(xùn)練樣本進(jìn)行特征提取,并生成每個(gè)訓(xùn)練樣本對(duì)應(yīng)的訓(xùn)練特征集,并根據(jù)機(jī)器學(xué)習(xí)算法對(duì)所述訓(xùn)練特征集進(jìn)行處理以生成所述評(píng)估模型,其中,所述訓(xùn)練樣本庫(kù)中包括多個(gè)訓(xùn)練樣本;
評(píng)估單元,用于根據(jù)所述評(píng)估模型和所述組合特征集對(duì)所述待測(cè)頁(yè)面進(jìn)行質(zhì)量評(píng)估。
10.如權(quán)利要求9所述的瀏覽質(zhì)量的評(píng)估裝置,其特征在于,所述訓(xùn)練樣本包括URL列表和URL列表中每個(gè)URL對(duì)應(yīng)的人工評(píng)估結(jié)果。
11.如權(quán)利要求8所述的瀏覽質(zhì)量的評(píng)估裝置,其特征在于,所述組合模塊根據(jù)所述待測(cè)頁(yè)面的頁(yè)面類型選擇對(duì)應(yīng)的組合規(guī)則。
12.如權(quán)利要求8-11任一項(xiàng)所述的瀏覽質(zhì)量的評(píng)估裝置,其特征在于,所述第一原始特征集和第二原始特征集分別包括轉(zhuǎn)碼前和轉(zhuǎn)碼后的所述待測(cè)頁(yè)面中的文字、圖片、動(dòng)畫(huà)的數(shù)量和面積信息。
13.如權(quán)利要求8-12任一項(xiàng)所述的瀏覽質(zhì)量的評(píng)估裝置,其特征在于,所述轉(zhuǎn)碼模塊包括:
結(jié)構(gòu)化分析單元,用于對(duì)所述待測(cè)頁(yè)面進(jìn)行結(jié)構(gòu)化分析,以獲得所述待測(cè)頁(yè)面的頁(yè)面類型和內(nèi)容塊;
結(jié)構(gòu)化特征獲取單元,用于對(duì)所述待測(cè)頁(yè)面的內(nèi)容塊進(jìn)行分析以獲得所述待測(cè)頁(yè)面的結(jié)構(gòu)化特征。
14.如權(quán)利要求13所述的瀏覽質(zhì)量的評(píng)估裝置,其特征在于,所述結(jié)構(gòu)化特征包括所述待測(cè)頁(yè)面中的標(biāo)題、圖標(biāo)和聯(lián)系方式中的一種或多種。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210242504.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 生成評(píng)估方案的方法及裝置
- 一種基于PDCA環(huán)的評(píng)估方法及裝置
- 金融產(chǎn)品評(píng)估系統(tǒng)及方法
- 一種軍事演習(xí)演練量化評(píng)估系統(tǒng)
- 一種通過(guò)聲音進(jìn)行質(zhì)量評(píng)估的方法及裝置
- 一種項(xiàng)目評(píng)估方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種品性循環(huán)評(píng)估方法
- 基于組件的評(píng)估模型裝配方法及系統(tǒng)
- 一種綜合評(píng)估的方法和系統(tǒng)
- 產(chǎn)品的質(zhì)量評(píng)估方法及裝置
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





