[發(fā)明專利]一種領(lǐng)域特征詞確定方法和裝置有效
| 申請?zhí)枺?/td> | 201010100319.3 | 申請日: | 2010-01-22 |
| 公開(公告)號: | CN102135961A | 公開(公告)日: | 2011-07-27 |
| 發(fā)明(設(shè)計)人: | 于亮;張宇峰 | 申請(專利權(quán))人: | 北京金山軟件有限公司;北京金山數(shù)字娛樂科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 逯長明;王寶筠 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 領(lǐng)域 特征 確定 方法 裝置 | ||
1.一種領(lǐng)域特征詞確定方法,其特征在于,包括:
分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞,利用搜索引擎對每個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲得待確定領(lǐng)域特征詞集合;
分別結(jié)合第一領(lǐng)域和第二領(lǐng)域的搜索結(jié)果計算待確定領(lǐng)域特征詞集合中的每個詞語在第一領(lǐng)域中的第一權(quán)值和在第二領(lǐng)域的第二權(quán)值。
分別按照所述第一權(quán)值和第二權(quán)值對所述詞語進行排序,統(tǒng)計待確定領(lǐng)域特征詞集合中同一個詞語在兩個領(lǐng)域的權(quán)值位置信息,并根據(jù)所述位置信息計算每個詞語在這兩個領(lǐng)域的差異度;
將所述每個詞語的差異度與預(yù)先獲取的第一領(lǐng)域與第二領(lǐng)域的差異度閾值進行比較,根據(jù)比較結(jié)果得到第一領(lǐng)域或者第二領(lǐng)域的領(lǐng)域特征詞。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過如下方法預(yù)先獲取的差異度閾值:
分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞,利用搜索引擎對每個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲得待確定領(lǐng)域特征詞集合;
從待確定領(lǐng)域特征詞集合中為第一領(lǐng)域和第二領(lǐng)域各選一定數(shù)量的參考領(lǐng)域特征詞,所述參考領(lǐng)域特征詞分別從預(yù)先設(shè)置的第一領(lǐng)域和第二領(lǐng)域參考領(lǐng)域特征詞集合中選取;
分別結(jié)合第一領(lǐng)域和第二領(lǐng)域的搜索結(jié)果計算每個參考領(lǐng)域特征詞的權(quán)值,并按照權(quán)值對參考領(lǐng)域特征詞進行排序;
根據(jù)同一個參考領(lǐng)域特征詞在兩個領(lǐng)域的權(quán)值所處的不同位置計算每個參考領(lǐng)域特征詞的位置差異度;
根據(jù)參考領(lǐng)域特征詞的差異度確定第一領(lǐng)域和第二領(lǐng)域的差異度閾值。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述利用搜索引擎對每個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲得待確定領(lǐng)域特征詞集合包括:
利用搜索引擎對每個領(lǐng)域詞進行搜索,獲取搜索結(jié)果,根據(jù)搜索結(jié)果得到待分析的頁面;
利用抽取程序,抽取出每個待分析頁面的正文部分;
對每個待分析頁面的正文進行分詞,統(tǒng)計分詞后得到的詞語,形成待確定領(lǐng)域特征詞集合。
4.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,將所述差異度與預(yù)先獲取的差異度閾值進行比較,從差異度閾值之上的詞語中得到領(lǐng)域特征詞包括:
將所述差異度與預(yù)先獲取的差異度閾值進行比較,選取差異度在差異度閾值以上的待選領(lǐng)域特征詞;
結(jié)合所述待選領(lǐng)域特征詞的在第一領(lǐng)域和第二領(lǐng)域的權(quán)值位置信息,從待選領(lǐng)域特征詞中確定第一領(lǐng)域或第二領(lǐng)域的領(lǐng)域特征詞。
5.根據(jù)權(quán)利要求1~4任意一項所述的方法,其特征在于,所述權(quán)值位置信息為所述按照待確定領(lǐng)域特征詞在第一領(lǐng)域或者第二領(lǐng)域的權(quán)值在相應(yīng)的領(lǐng)域進行排序后,所述待確定領(lǐng)域特征詞所處的位置。
6.一種領(lǐng)域特征詞確定裝置,其特征在于,包括:
第一獲取單元,用于分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞,利用搜索引擎對每個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲取待確定領(lǐng)域特征詞集合;
第一計算單元,用于分別結(jié)合第一領(lǐng)域和第二領(lǐng)域的搜索結(jié)果計算待確定領(lǐng)域特征詞集合中的每個詞語在第一領(lǐng)域中的第一權(quán)值和在第二領(lǐng)域的第二權(quán)值;
第二計算單元,用于分別按照所述第一權(quán)值和第二權(quán)值對所述詞語進行排序,統(tǒng)計待確定領(lǐng)域特征詞集合中同一個詞語在兩個領(lǐng)域的權(quán)值位置信息,并根據(jù)所述位置信息計算每個詞語在這兩個領(lǐng)域的差異度;
差異度閾值獲取單元,用于預(yù)先獲取第一領(lǐng)域與第二領(lǐng)域的差異度閾值;
第二獲取單元,用于將所述每個詞語的差異度與預(yù)先獲取的第一領(lǐng)域與第二領(lǐng)域的差異度閾值進行比較,根據(jù)比較結(jié)果得到第一領(lǐng)域或者第二領(lǐng)域的領(lǐng)域特征詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京金山軟件有限公司;北京金山數(shù)字娛樂科技有限公司,未經(jīng)北京金山軟件有限公司;北京金山數(shù)字娛樂科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010100319.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





