[發(fā)明專利]一種網(wǎng)頁主題提取系統(tǒng)和方法無效
| 申請(qǐng)?zhí)枺?/td> | 200610036003.6 | 申請(qǐng)日: | 2006-06-15 |
| 公開(公告)號(hào): | CN101079031A | 公開(公告)日: | 2007-11-28 |
| 發(fā)明(設(shè)計(jì))人: | 丁江偉 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 深圳市順天達(dá)專利商標(biāo)代理有限公司 | 代理人: | 郭偉剛;蔡曉紅 |
| 地址: | 518057廣東省深圳市高新科*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)頁 主題 提取 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及本發(fā)明涉及網(wǎng)絡(luò)通信技術(shù),更具體地說,涉及一種網(wǎng)頁主題提取系統(tǒng)和方法。
背景技術(shù)
所謂網(wǎng)頁主題,就是網(wǎng)頁正文所描述事件的摘要內(nèi)容或者關(guān)鍵詞列表,標(biāo)示了該網(wǎng)頁的主題內(nèi)容和中心思想。現(xiàn)有的網(wǎng)頁主題提取方法主要有兩種。一種是是基于標(biāo)題的網(wǎng)頁主題提取技術(shù)。其方法是:采用Html(HyperText?MarkupLanguage,超文件鏈接標(biāo)記語言)文檔解析器,按照html協(xié)議分析html網(wǎng)頁,按照網(wǎng)頁源文件的tag標(biāo)識(shí)建立html語法樹,以找出網(wǎng)頁的標(biāo)題、正文等的內(nèi)容,然后將網(wǎng)頁中標(biāo)題<title>標(biāo)簽的值作為網(wǎng)頁的主題思想。該方法是早期比較常用的網(wǎng)頁主題提取方法。但是這種計(jì)算方法顯然過于簡(jiǎn)單,實(shí)際應(yīng)用中準(zhǔn)確率、召回率均很低,并且不可避免的會(huì)出現(xiàn)正文部分信息丟失的情況。
另外一種是基于標(biāo)題的網(wǎng)頁主題提取技術(shù)。隨著統(tǒng)計(jì)自然語言處理技術(shù)的發(fā)展,按照高詞頻關(guān)鍵詞來標(biāo)示網(wǎng)頁主題的方法得到了廣泛的應(yīng)用,具體做法是先將網(wǎng)頁源文件去tag標(biāo)記,然后將文章內(nèi)容進(jìn)行分詞統(tǒng)計(jì)詞頻,最后按詞頻對(duì)關(guān)鍵詞排序,給出前N個(gè)高詞頻作為文章主題。但是由于表義語言發(fā)展得很充分,一義多詞是普遍現(xiàn)象,再加上修辭法的運(yùn)用使得詞匯稀疏現(xiàn)象客觀存在,特別是對(duì)于網(wǎng)頁類的短文章,該算法整體效果不是很理想。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的缺陷,提供一種網(wǎng)頁主題提取系統(tǒng)和方法,其基于義元集語義分析技術(shù)、充分利用網(wǎng)頁預(yù)分類信息、顯示屬性信息來增加單純語義分析技術(shù)的準(zhǔn)確度。
本發(fā)明的技術(shù)方案是:一種網(wǎng)頁主題提取系統(tǒng),包括文檔解析器,其用于從網(wǎng)頁源文件中提取網(wǎng)頁標(biāo)題和具有不同突出顯示屬性的網(wǎng)頁正文;還包括:分詞模塊,其用于將所述網(wǎng)頁正文、網(wǎng)頁標(biāo)題和網(wǎng)頁類別信息進(jìn)行分詞,得到第一詞匯表;義元處理模塊,其用于將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對(duì)所述義元計(jì)算權(quán)重,最后再對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原,得到主題詞匯集合。
進(jìn)一步的,所述分詞模塊與義元處理模塊之間還串聯(lián)有分詞后處理模塊;所述分詞模塊還具有對(duì)切分后的詞匯進(jìn)行詞性標(biāo)注的功能;所述分詞后處理模塊用于根據(jù)第一詞匯表中詞匯的詞性,剔除其中的停用詞、虛詞,得到第二詞匯表;所述義元處理模塊用于對(duì)所述第二詞匯表中的詞匯進(jìn)行處理。
具體的,所述義元處理模塊包括:義元擴(kuò)展模塊,其用于使用義元詞典將所述第二詞匯表中的詞匯轉(zhuǎn)換成義元,表示為第一義元表;網(wǎng)頁主題義元計(jì)算模塊,其用于對(duì)所述第一義元表中的所有義元計(jì)算權(quán)重;義元復(fù)原關(guān)鍵詞模塊,其用于對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原,得到主題詞匯集合。
本發(fā)明一種網(wǎng)頁主題提取系統(tǒng)還包括網(wǎng)頁主題輸出接口,其用于將所述主題詞匯集合處理為適合應(yīng)用層調(diào)用的詞匯列表,所述詞匯按照語義密度分別被賦予不同的權(quán)重。
本發(fā)明還提供了一種網(wǎng)頁主題提取方法,包括以下步驟:
(a),所述文檔解析器從網(wǎng)頁源文件中提取網(wǎng)頁標(biāo)題和具有不同突出顯示屬性的網(wǎng)頁正文;
(b),所述分詞模塊將所述網(wǎng)頁正文、網(wǎng)頁標(biāo)題和網(wǎng)頁類別信息進(jìn)行分詞,得到第一詞匯表;
(c),所述義元處理模塊將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對(duì)所述義元計(jì)算權(quán)重,最后再對(duì)計(jì)算權(quán)重后的義元進(jìn)行反向還原,得到表征了網(wǎng)頁主題的、具有不同權(quán)重的主題詞匯集合。
其中,步驟(a)中,提取網(wǎng)頁標(biāo)題和網(wǎng)頁正文的方法是:所述文檔解析器對(duì)所述網(wǎng)頁的源文件進(jìn)行解析,得到網(wǎng)頁的語法樹,然后從語法樹上獲得網(wǎng)頁標(biāo)題、網(wǎng)頁正文中具有不同突出顯示屬性的正文內(nèi)容,并將所述正文內(nèi)容按照其突出顯示屬性順序記為body1?body2?body3到bodyN。
進(jìn)一步的,步驟(b)中,所述分詞模塊還對(duì)切分后的詞匯進(jìn)行詞性標(biāo)注,得到第一詞匯表。步驟(b)之后進(jìn)一步包括步驟(b1),所述分詞后處理模塊至少對(duì)所述第一詞匯表中的詞匯進(jìn)行去停用詞、去虛詞,得到第二詞匯表。
具體的,步驟(c)包括步驟:
(c1),所述義元擴(kuò)展模塊按照詞典與義元詞典的對(duì)應(yīng)關(guān)系將所述第二詞匯表中的詞匯轉(zhuǎn)換成義元,組成第一義元表;
(c2),所述網(wǎng)頁主題義元計(jì)算模塊對(duì)所述第一義元表中的所有義元計(jì)算權(quán)重,得到具有不同權(quán)重的第二義元表;
(c3),所述義元復(fù)原關(guān)鍵詞模塊按照義元詞典對(duì)所述第二義元表中的義元進(jìn)行反向還原,得到表征了網(wǎng)頁主題的、具有不同權(quán)重的主題詞匯集合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610036003.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





