[發明專利]提取關鍵詞的方法和設備在審
| 申請號: | 201310415137.9 | 申請日: | 2013-09-12 |
| 公開(公告)號: | CN103473317A | 公開(公告)日: | 2013-12-25 |
| 發明(設計)人: | 路遙;陳鏡;唐進 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 張川緒;劉燦強 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 提取 關鍵詞 方法 設備 | ||
1.一種提取關鍵詞的方法,包括:
a)從預定信息之中提取候選關鍵詞;
b)獲取每個候選關鍵詞的至少一個類型的特征;
c)根據獲取的特征以及訓練得到的每種類型的特征的權重計算每個候選關鍵詞的重要性值;
d)根據計算的重要性值從候選關鍵詞之中選擇關鍵詞。
2.根據權利要求1所述的方法,其中,所述特征包括文本特征、語言特征、統計特征、標注特征中的至少一個。
3.根據權利要求1所述的方法,其中,根據搜索引擎的推廣日志信息來對候選關鍵詞分類,不同類的候選關鍵詞具有不同的標注特征。
4.根據權利要求3所述的方法,其中,搜索引擎的搜索日志信息包括基于候選關鍵詞搜索到的與所述預定信息對應的推廣業務的點擊次數、指示候選關鍵詞是否為被購買的推廣詞的指示信息。
5.根據權利要求4所述的方法,其中,候選關鍵詞被分類為:作為被購買的推廣詞并且點擊次數大于等于預定閾值的候選關鍵詞、作為被購買的推廣詞并且點擊次數小于預定閾值的候選關鍵詞、作為被購買的推廣詞并且點擊次數為零的候選關鍵詞、剩余的其他候選關鍵詞。
6.根據權利要求1所述的方法,其中,利用預定數量的樣本關鍵詞的所述至少一個類型的特征以及重要性值來訓練排序學習模型得到每種類型的特征的權重。
7.根據權利要求1所述的方法,其中,步驟c)包括:利用訓練得到的每種類型的特征的權重,計算每個候選關鍵詞的至少一個類型的特征的加權和。
8.一種提取關鍵詞的設備,包括:
詞語提取單元,從預定信息之中提取候選關鍵詞;
特征提取單元,獲取每個候選關鍵詞的至少一個類型的特征;
重要度計算單元,根據獲取的特征以及訓練得到的每種類型的特征的權重計算每個候選關鍵詞的重要性值;
選擇單元,根據計算的重要性值從候選關鍵詞之中選擇關鍵詞。
9.根據權利要求8所述的設備,其中,所述特征包括文本特征、語言特征、統計特征、標注特征中的至少一個。
10.根據權利要求9所述的設備,其中,根據搜索引擎的推廣日志信息來對候選關鍵詞分類,不同類的候選關鍵詞具有不同的標注特征。
11.根據權利要求10所述的設備,其中,搜索引擎的搜索日志信息包括基于候選關鍵詞搜索到的與所述預定信息對應的推廣業務的點擊次數、指示候選關鍵詞是否為被購買的推廣詞的指示信息。
12.根據權利要求11所述的設備,其中,候選關鍵詞被分類為:作為被購買的推廣詞并且點擊次數大于等于預定閾值的候選關鍵詞、作為被購買的推廣詞并且點擊次數小于預定閾值的候選關鍵詞、作為被購買的推廣詞并且點擊次數為零的候選關鍵詞、剩余的其他候選關鍵詞。
13.根據權利要求8所述的設備,其中,利用預定數量的樣本關鍵詞的所述至少一個類型的特征以及重要性值來訓練排序學習模型得到每種類型的特征的權重。
14.根據權利要求8所述的設備,其中,重要度計算單元利用訓練得到的每種類型的特征的權重,計算每個候選關鍵詞的至少一個類型的特征的加權和。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310415137.9/1.html,轉載請聲明來源鉆瓜專利網。





