[發(fā)明專利]網(wǎng)頁(yè)質(zhì)量檢測(cè)方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201510050373.4 | 申請(qǐng)日: | 2015-01-30 |
| 公開(kāi)(公告)號(hào): | CN104615705B | 公開(kāi)(公告)日: | 2018-09-18 |
| 發(fā)明(設(shè)計(jì))人: | 王麗杰;吳先超;劉占一 | 申請(qǐng)(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 路凱;崔雪青 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁(yè) 質(zhì)量 檢測(cè) 方法 裝置 | ||
1.一種網(wǎng)頁(yè)質(zhì)量檢測(cè)方法,其特征在于,包括:
獲取根據(jù)用戶查詢語(yǔ)句得到的搜索結(jié)果中的多個(gè)網(wǎng)頁(yè);
針對(duì)獲取的各個(gè)網(wǎng)頁(yè),對(duì)當(dāng)前網(wǎng)頁(yè)所包含的長(zhǎng)文本中的分句進(jìn)行語(yǔ)法語(yǔ)義分析,得到所述分句的句法結(jié)構(gòu);
提取分句的句法結(jié)構(gòu)中的子結(jié)構(gòu);
對(duì)提取到的子結(jié)構(gòu)進(jìn)行語(yǔ)句類型識(shí)別;
根據(jù)語(yǔ)句類型識(shí)別結(jié)果,對(duì)提取到的子結(jié)構(gòu)進(jìn)行合并后對(duì)合并得到的子結(jié)構(gòu)進(jìn)行合理性驗(yàn)證,或者對(duì)提取到的子結(jié)構(gòu)進(jìn)行合理性驗(yàn)證;
將驗(yàn)證通過(guò)的子結(jié)構(gòu)作為相關(guān)實(shí)體對(duì)作為分句所包含的知識(shí)點(diǎn),其中相關(guān)實(shí)體對(duì)包含分句中具有關(guān)聯(lián)關(guān)系的實(shí)體以及關(guān)聯(lián)關(guān)系;
將所述長(zhǎng)文本中的各個(gè)分句所包含的知識(shí)點(diǎn)進(jìn)行組織,構(gòu)成當(dāng)前網(wǎng)頁(yè)的知識(shí)網(wǎng)絡(luò);
根據(jù)所構(gòu)成的當(dāng)前網(wǎng)頁(yè)的知識(shí)網(wǎng)絡(luò),以及當(dāng)前網(wǎng)頁(yè)的標(biāo)題和/或子標(biāo)題,生成當(dāng)前網(wǎng)頁(yè)的摘要;
將所述多個(gè)網(wǎng)頁(yè)中的一個(gè)網(wǎng)頁(yè)作為待檢測(cè)的目標(biāo)網(wǎng)頁(yè),根據(jù)所述目標(biāo)網(wǎng)頁(yè)與所述多個(gè)網(wǎng)頁(yè)中其他網(wǎng)頁(yè)之間在摘要上的相似度,確定所述目標(biāo)網(wǎng)頁(yè)的質(zhì)量;
其中,所述對(duì)提取到的子結(jié)構(gòu)進(jìn)行合并后對(duì)合并得到的子結(jié)構(gòu)進(jìn)行合理性驗(yàn)證,或者對(duì)提取到的子結(jié)構(gòu)進(jìn)行合理性驗(yàn)證包括:
通過(guò)從所述子結(jié)構(gòu)中挖掘到的語(yǔ)料來(lái)源網(wǎng)站的質(zhì)量、網(wǎng)站數(shù)量確定所述語(yǔ)料的可靠性。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述目標(biāo)網(wǎng)頁(yè)與所述多個(gè)網(wǎng)頁(yè)中其他網(wǎng)頁(yè)之間在摘要上的相似度,確定所述目標(biāo)網(wǎng)頁(yè)的質(zhì)量,包括:
獲取所述多個(gè)網(wǎng)頁(yè)中其他網(wǎng)頁(yè)的摘要與所述目標(biāo)網(wǎng)頁(yè)的摘要之間的相似度;
統(tǒng)計(jì)在摘要上與所述目標(biāo)網(wǎng)頁(yè)的摘要之間的相似度,達(dá)到設(shè)定閾值的其他網(wǎng)頁(yè)的數(shù)量和/或?qū)?yīng)的相似度;
根據(jù)統(tǒng)計(jì)結(jié)果,確定所述目標(biāo)網(wǎng)頁(yè)的質(zhì)量。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在獲得所述分句中具有關(guān)聯(lián)關(guān)系的實(shí)體之后、將該具有關(guān)聯(lián)關(guān)系的實(shí)體以及所述關(guān)聯(lián)關(guān)系作為所述分句所包含的知識(shí)點(diǎn)之前,還包括:
根據(jù)預(yù)先針對(duì)所述關(guān)聯(lián)關(guān)系的類型設(shè)定的元素構(gòu)成框架,確定所述關(guān)聯(lián)關(guān)系所需要補(bǔ)充的元素,并在獲得所需要補(bǔ)充的元素后對(duì)所述關(guān)聯(lián)關(guān)系進(jìn)行元素補(bǔ)充;
將該具有關(guān)聯(lián)關(guān)系的實(shí)體以及所述關(guān)聯(lián)關(guān)系作為所述分句所包含的知識(shí)點(diǎn),包括:將所述具有關(guān)聯(lián)關(guān)系的實(shí)體、所述關(guān)聯(lián)關(guān)系以及補(bǔ)充的元素,作為所述分句所包含的知識(shí)點(diǎn)。
4.根據(jù)權(quán)利要求1或3所述的方法,其特征在于,將所述長(zhǎng)文本中的各個(gè)分句所包含的知識(shí)點(diǎn)進(jìn)行組織,構(gòu)成當(dāng)前網(wǎng)頁(yè)的知識(shí)網(wǎng)絡(luò),包括:
識(shí)別所述長(zhǎng)文本中的各個(gè)分句所包含的知識(shí)點(diǎn)之間在實(shí)體上的關(guān)系;
將所述長(zhǎng)文本中的各個(gè)分句所包含的知識(shí)點(diǎn),以及識(shí)別到的關(guān)系,作為當(dāng)前網(wǎng)頁(yè)的知識(shí)網(wǎng)絡(luò)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所構(gòu)成的當(dāng)前網(wǎng)頁(yè)的知識(shí)網(wǎng)絡(luò),以及當(dāng)前網(wǎng)頁(yè)的標(biāo)題和/或子標(biāo)題,生成當(dāng)前網(wǎng)頁(yè)的摘要,包括:
剔除所構(gòu)成的當(dāng)前網(wǎng)頁(yè)的知識(shí)網(wǎng)絡(luò)中,與所述當(dāng)前網(wǎng)頁(yè)的標(biāo)題和/或子標(biāo)題的關(guān)聯(lián)度滿足設(shè)定的剔除條件的知識(shí)點(diǎn);
根據(jù)經(jīng)過(guò)剔除操作后的知識(shí)網(wǎng)絡(luò)中所包含的知識(shí)點(diǎn),生成當(dāng)前網(wǎng)頁(yè)的摘要。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)經(jīng)過(guò)剔除操作后的知識(shí)網(wǎng)絡(luò)中所包含的知識(shí)點(diǎn),生成當(dāng)前網(wǎng)頁(yè)的摘要,包括:
對(duì)經(jīng)過(guò)剔除操作后的知識(shí)網(wǎng)絡(luò)中所包含的知識(shí)點(diǎn),按照知識(shí)點(diǎn)所在分句的順序或者按照知識(shí)點(diǎn)的類型組織在一起,得到當(dāng)前網(wǎng)頁(yè)的摘要;
其中,所述知識(shí)點(diǎn)的類型包括靜態(tài)類型和動(dòng)態(tài)類型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510050373.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類型識(shí)別方法以及網(wǎng)頁(yè)類型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪問(wèn)處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





