[發(fā)明專利]章節(jié)式文本的章節(jié)完整性的識別方法和裝置有效
| 申請?zhí)枺?/td> | 201410578534.2 | 申請日: | 2014-10-24 |
| 公開(公告)號: | CN104317903B | 公開(公告)日: | 2017-10-13 |
| 發(fā)明(設(shè)計)人: | 魏少俊;鄭燕琴 | 申請(專利權(quán))人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京智匯東方知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)11391 | 代理人: | 康正德,郭海彬 |
| 地址: | 100088 北京市西城區(qū)新*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 章節(jié) 文本 完整性 識別 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是一種章節(jié)式文本的章節(jié)完整性的識別方法和裝置。
背景技術(shù)
隨著計算機和計算機網(wǎng)絡(luò)的日益普及,互聯(lián)網(wǎng)已經(jīng)深入到人們工作、學(xué)習(xí)和生活的各個領(lǐng)域,成為人們發(fā)布和獲取信息的重要途徑。
目前,章節(jié)式文本在互聯(lián)網(wǎng)中大量存在,且同一文本可能被不同網(wǎng)站大量轉(zhuǎn)載,由于轉(zhuǎn)載時受到一些客觀因素的影響,可能導(dǎo)致在一些網(wǎng)站該文本的內(nèi)容并不完整,甚至出現(xiàn)內(nèi)容虛假的情況。以小說文本為例,小說閱讀是互聯(lián)網(wǎng)用戶的一種強需求,尤其在移動設(shè)備上更占有不小的需求比重。小說類網(wǎng)站大量存在,質(zhì)量卻良莠不齊,同一本網(wǎng)絡(luò)小說會被不同網(wǎng)站大量轉(zhuǎn)載,但受一些客觀因素的影響,可能會導(dǎo)致在一些網(wǎng)站上該本小說的內(nèi)容并不完整(如缺少章節(jié)),甚至內(nèi)容虛假(拼湊虛假章節(jié))。搜索引擎在索引這些小說站點時,需要對小說的章節(jié)完整性做出判斷,盡量給用戶呈現(xiàn)內(nèi)容完整的站點,提高用戶獲取小說內(nèi)容的質(zhì)量,提升用戶體驗。
相關(guān)技術(shù)中,通過對不同小說站點人工配置模板進行章節(jié)完整性判斷,該方法雖然準確率很高,但是缺點也很明顯:人力能覆蓋的網(wǎng)站有限,不夠智能,對于網(wǎng)站模板變化的響應(yīng)不及時。因而,如何靈活、快速以及準確地識別章節(jié)式文本的章節(jié)完整性成為目前亟待解決的技術(shù)問題。
發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的章節(jié)式文本的章節(jié)完整性的識別方法和相應(yīng)的裝置。
依據(jù)本發(fā)明的一個方面,提供了一種章節(jié)式文本的章節(jié)完整性的識別方法,包括:從多個站點分別識別出章節(jié)式文本的目錄頁以及多個內(nèi)容頁,其中,每個站點對應(yīng)一個目錄頁,每個目錄頁對應(yīng)多個內(nèi)容頁;根據(jù)每個目錄頁對應(yīng)的多個內(nèi)容頁,確定所述章節(jié)式文本在不同站點上的目錄頁集合;分析所述目錄頁集合中各目錄頁和/或各目錄頁對應(yīng)的內(nèi)容頁,根據(jù)分析得到的結(jié)果識別出所述目錄頁集合中各目錄頁的章節(jié)完整性。
可選地,根據(jù)每個目錄頁對應(yīng)的多個內(nèi)容頁,確定所述章節(jié)式文本在不同站點上的目錄頁集合,包括:計算每兩個目錄頁對應(yīng)的內(nèi)容頁之間的交集,并作為每兩個目錄頁的交集;根據(jù)每兩個目錄頁的交集,確定所述章節(jié)式文本在不同站點上的目錄頁集合。
可選地,所述計算每兩個目錄頁對應(yīng)的內(nèi)容頁之間的交集,包括:提取多個目錄頁對應(yīng)的內(nèi)容頁中每個內(nèi)容頁的文本特征向量;將具備相同文本特征向量的內(nèi)容頁進行聚類,生成多個內(nèi)容頁分組;根據(jù)所述多個內(nèi)容頁分組、以及每個目錄頁與其對應(yīng)的內(nèi)容頁的映射關(guān)系,計算每兩個目錄頁對應(yīng)的內(nèi)容頁之間的交集。
可選地,根據(jù)每兩個目錄頁的交集,確定所述章節(jié)式文本在不同站點上的目錄頁集合,包括:將交集的元素個數(shù)大于或等于預(yù)設(shè)閾值的每兩個目錄頁進行合并,得到合并結(jié)果;將所述合并結(jié)果作為所述章節(jié)式文本在不同站點上的目錄頁集合。
可選地,分析所述目錄頁集合中各目錄頁和/或各目錄頁對應(yīng)的內(nèi)容頁,根據(jù)分析得到的結(jié)果識別出所述目錄頁集合中各目錄頁的章節(jié)完整性,包括:計算所述目錄頁集合中每兩個目錄頁的交集的元素個數(shù)的平均值;若某一目錄頁與所述目錄頁集合中多個其他目錄頁的交集的元素的個數(shù)均小于所述平均值,則確定該目錄頁對應(yīng)的章節(jié)不完整。
可選地,分析所述目錄頁集合中各目錄頁和/或各目錄頁對應(yīng)的內(nèi)容頁,根據(jù)分析得到的結(jié)果識別出所述目錄頁集合中各目錄頁的章節(jié)完整性,包括:若某一目錄頁對應(yīng)的內(nèi)容頁包含有所述目錄頁集合中多個其他目錄頁對應(yīng)的內(nèi)容頁,且該目錄頁對應(yīng)的內(nèi)容頁中還存在其他內(nèi)容頁,則確定所述其他內(nèi)容頁為最新章節(jié)的內(nèi)容頁,且該目錄頁具備持續(xù)貢獻新章節(jié)的能力。
可選地,分析所述目錄頁集合中各目錄頁和/或各目錄頁對應(yīng)的內(nèi)容頁,根據(jù)分析得到的結(jié)果識別出所述目錄頁集合中各目錄頁的章節(jié)完整性,包括:若某一目錄頁對應(yīng)的某個內(nèi)容頁未存在于所述目錄頁集合中其他目錄頁對應(yīng)的內(nèi)容頁中,且該內(nèi)容頁長度不屬于該目錄頁對應(yīng)的內(nèi)容頁的平均長度對應(yīng)的區(qū)間范圍,則確定該內(nèi)容頁為虛假的內(nèi)容頁。
可選地,分析所述目錄頁集合中各目錄頁和/或各目錄頁對應(yīng)的內(nèi)容頁,根據(jù)分析得到的結(jié)果識別出所述目錄頁集合中各目錄頁的章節(jié)完整性,包括:若某一目錄頁對應(yīng)的某個內(nèi)容頁未存在于所述目錄頁集合中其他目錄頁對應(yīng)的內(nèi)容頁中,該內(nèi)容頁長度屬于該目錄頁對應(yīng)的內(nèi)容頁的平均長度對應(yīng)的區(qū)間范圍,且該目錄頁不具備持續(xù)貢獻新章節(jié)的能力,則確定該內(nèi)容頁為虛假的內(nèi)容頁。
可選地,所述從多個站點分別識別出章節(jié)式文本的目錄頁以及多個內(nèi)容頁,包括:從多個站點搜索到章節(jié)式文本相關(guān)的網(wǎng)頁;從搜索到的網(wǎng)頁中識別出所述章節(jié)式文本的目錄頁以及多個內(nèi)容頁。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經(jīng)北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410578534.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





