[發明專利]關鍵詞的分類方法及裝置有效
申請號: | 201410736469.1 | 申請日: | 2014-12-04 |
公開(公告)號: | CN104462347B | 公開(公告)日: | 2018-05-18 |
發明(設計)人: | 侯明午 | 申請(專利權)人: | 北京國雙科技有限公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30 |
代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 吳貴明;張永明 |
地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 關鍵詞 分類 方法 裝置 | ||
本發明公開了一種關鍵詞的分類方法及裝置。其中,關鍵詞的分類方法包括:對關鍵詞進行劃分,得到關鍵詞的構詞成分;提取構詞成分中的多個構詞要件;查詢每個構詞要件所歸屬的預設類別,得到多個歸屬類別;計算每個歸屬類別的概率,得到多個歸屬概率;確定多個歸屬概率中的最大概率所表示的類別為關鍵詞的類別。通過本發明,解決了現有技術中確定關鍵詞類型的精度比較低的問題,進而達到了提高關鍵詞類型確定準確度的效果。
技術領域
本發明涉及數據處理領域,具體而言,涉及一種關鍵詞的分類方法及裝置。
背景技術
搜索引擎關鍵詞是用戶在使用搜索引擎時輸入的關鍵詞。每個關鍵詞都代表了用戶的一個需求。對海量用戶關鍵詞的分類有助于剖析群體的需求分布。現有的搜索關鍵詞分類方法有兩種,一種是基于訪問路徑的分類方法,另一種是基于形式的分類方法。
基于訪問路徑的分類方法基于一種假設,即在搜索引擎中多次發起的查詢(Query)關鍵詞具有相似性。具體方式是記錄一個會話(Session)中用戶的所有查詢關鍵詞,記錄每個關鍵詞的相關詞以及共同出現在一個會話中的頻次,為所有會話重復統計相關關鍵詞,最終實現聚類。
基于訪問路徑的會話的假設存在一定問題,一次會話的所有查詢關鍵詞不一定均是相似的,有可能是相關的,因此該方法聚類得到的關鍵詞大多為相關的,不一定是相似的;關鍵詞類別多為事件性的,不易于分析用戶需求。
基于字符串形式的分類以字符串的字符重合度為分類指標,分別計算字符串的交集和并集,再以交集和并集的比值確定是否歸為一類,如果歸為一類,則以兩個字符串的并集作為該類的字符串繼續比較,否則單獨建立一類,以完成分類。
基于字符串的分類沒有考慮查詢關鍵詞的詞語關系,簡單的字符切分會導致大量錯誤的產生,分類效果較差。
針對相關技術中確定關鍵詞類型的精度比較低的問題,目前尚未提出有效的解決方案。
發明內容
本發明的主要目的在于提供一種關鍵詞的分類方法及裝置,以解決現有技術中確定關鍵詞類型的精度比較低的問題。
為了實現上述目的,根據本發明的一個方面,提供了一種關鍵詞的分類方法。
根據本發明的關鍵詞的分類方法包括:對所述關鍵詞進行劃分,得到所述關鍵詞的構詞成分;提取所述構詞成分中的多個構詞要件;查詢每個所述構詞要件所歸屬的預設類別,得到多個歸屬類別;計算每個所述歸屬類別的概率,得到多個歸屬概率;以及確定所述多個歸屬概率中的最大概率所表示的類別為所述關鍵詞的類別。
進一步地,在計算每個所述歸屬類別的概率,得到多個歸屬概率之前,所述分類方法還包括:接收每個所述構詞要件的權重賦值,其中,計算每個所述歸屬類別的概率,得到多個歸屬概率包括:按照每個所述構詞要件的權重賦值和每個所述構詞要件的歸屬類別計算每個所述歸屬類別的概率,得到多個歸屬概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410736469.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:降低瀏覽器負載的方法和裝置
- 下一篇:一種訪問數據的方法和服務器代理