[發明專利]一種在網絡上提取近義詞的方法及系統有效
| 申請號: | 200710304564.4 | 申請日: | 2007-12-28 |
| 公開(公告)號: | CN101226532A | 公開(公告)日: | 2008-07-23 |
| 發明(設計)人: | 禹榮凌;劉云峰 | 申請(專利權)人: | 騰訊科技(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 | 代理人: | 逯長明 |
| 地址: | 100089北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 提取 近義詞 方法 系統 | ||
技術領域
本發明涉及近義詞提取領域,特別是涉及一種在網絡上提取近義詞的方法及系統。
背景技術
在互聯網上利用網絡資源提取近義詞,可以為網頁搜索相關性、自然語言處理、文本挖掘等提供支持。但在網絡上,難以找到恰當的方式去界定近義詞,因此,目前現有技術仍采用對比查找方式。
參閱圖1,為現有在網絡上提取近義詞的方法,具體步驟如下所述。
步驟S101、預置近義詞詞庫。人工通過相關詞典和經驗整理近義詞,將整理好的近義詞組成近義詞庫。近義詞庫包括通常意義上詞義相近的詞語,如“吃飯”、“就餐”,“猶豫”、“躊躇”等,還包括廣義上的近義詞,即表示同一事物的詞語,如“北京”、“北京大學”等。
步驟S102、提取網頁文本,對網頁文本進行分詞處理。在網絡上抓取所需網頁,再在網頁上提取正文文本,對正文文本進行分詞處理,將各詞語使用空格隔開,過濾掉虛詞、語氣詞、介詞等不具有實質意義的詞語。
步驟S103、將網頁文本與近義詞詞庫對比,提取與近義詞詞庫相同的詞語。
步驟S104、根據提取的近義詞對網頁進行分析。
上述方法只是根據已有的近義詞庫在網絡上提取相同的近義詞,進行分析。但近義詞庫是根據人工整理的,一般數據量較小,覆蓋范圍也較小,基于該數據庫提取近義詞,提取的廣度受到很大的局限。
網絡上的近義詞很多由網絡語言習慣形成的,預先設置近義詞庫很難囊括這些網絡特有的近義詞,基于預置的近義詞庫無法查找到這些近義詞,提取近義詞的適用性較低。
發明內容
本發明所要解決的技術問題是提供一種在網絡上提取近義詞的方法及系統,以解決現有技術中近義詞提取的廣度和適用性較低的問題。本發明提取的近義詞具有較高的廣度和精度。
本發明公開一種在網絡上提取近義詞的方法,包括:獲取網頁上各反向鏈接的錨文本;將所述錨文本兩兩對比,分別去除重疊的詞語;將剩余的詞語組成近義詞集合,基于所述近義詞集合提取近義詞。
優選的,獲取網頁各反向鏈接的錨文本之前,還包括:獲取網頁上各反向鏈接父網頁的Rank值,及該父網頁所屬主域的Rank值;如父網頁的Rank值,和/或該網頁所在主域的Rank值低于預設數值,去除該父網頁對應的反向鏈接。
優選的,獲取網頁各反向鏈接的錨文本之后,還包括;計算錨文本權重,去除權重值低于預置數值的錨文本。
優選的,基于所述近義詞集合提取近義詞具體為:獲取上述剩余詞語在所述錨文本中的出現頻次,所述各反向鏈接父網頁的Rank值,及該父網頁所屬主域的Rank值;根據上述數值分別計算上述剩余詞語中各個詞語對的近義概率;選取近義概率超過預設閾值的詞語對作為近義詞。
優選的,基于所述近義詞集合提取近義詞具體為:獲取上述剩余詞語在所述錨文本中的出現頻次,所述各反向鏈接父網頁的Rank值,及該父網頁所在主域的Rank值;根據上述數值分別計算上述剩余詞語中各詞語對的近義概率,重復上述步驟,獲取各詞語對在各個網頁的近義概率;針對每個詞語對,將其在不同網頁的近義概率分別乘以該近義概率對應反向鏈接子頁面的Rank值,獲得的乘積相加,作為該詞語對的總近義概率;提取總近義概率超過設定閾值的詞語對作為近義詞。
優選的,根據上述數值分別計算上述剩余詞語中各詞語對的近義概率具體為:針對每個詞語對,將詞語對中一詞語的出現頻次乘以其對應反向鏈接父網頁的Rank值,乘積取對數后再乘以設定系數;將詞語對中另一詞語的出現頻次乘以其對應反向鏈接父網頁所屬主域的Rank值,乘積取對數;獲得的數據相加,為該詞語的近義概率。
優選的,根據上述數值分別計算上述剩余詞語中各詞語對的近義概率具體為:針對每個詞語對,將詞語對中一詞語的出現頻次乘以其對應反向鏈接父網頁的Rank值,另一詞語的出現頻次乘以其對應反向鏈接父網頁所屬主域的Rank值;獲得的數據相加,為該詞語的近義概率。
本發明還公開一種在網絡上提取近義詞的系統,包括錨文本獲取模塊、對比模塊、去除模塊、及組成模塊:所述錨文本獲取模塊,用于獲取網頁上各反向鏈接的錨文本;所述對比模塊,用于將所述錨文本兩兩對比;所述去除模塊,用于分別去除重疊的詞語;所述組成模塊,用于將剩余的詞語組成近義詞集合。
優選的,還包括數據獲取模塊、近義概率計算模塊、近義詞模塊:所述數據獲取模塊,用于獲取上述剩余詞語在所述錨文本中的出現頻次,所述各反向鏈接父網頁的Rank值,及該父網頁所屬主域的Rank值;所述近義概率計算模塊,用于根據上述數值分別計算上述剩余詞語中各個詞語對的近義概率;所述近義詞模塊,用于選取近義概率超過預設閾值的詞語對作為近義詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(北京)有限公司,未經騰訊科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710304564.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可散發氣味的筆記本電腦
- 下一篇:煤氣除塵脫水凈化裝置





