[發明專利]關鍵詞的關聯關鍵詞的獲取方法和裝置有效
| 申請號: | 201410779363.X | 申請日: | 2014-12-15 |
| 公開(公告)號: | CN104408191B | 公開(公告)日: | 2017-11-21 |
| 發明(設計)人: | 劉粉香 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康信知識產權代理有限責任公司11240 | 代理人: | 吳貴明,張永明 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞 關聯 獲取 方法 裝置 | ||
1.一種關鍵詞的關聯關鍵詞的獲取方法,其特征在于,包括:
接收用于獲取關聯關鍵詞的獲取請求,其中,所述獲取請求中攜帶有目標關鍵詞和包含所述目標關鍵詞的文本信息;
對所述文本信息進行分詞處理,得到包括多個關鍵詞的詞庫,其中,所述關鍵詞包括所述目標關鍵詞;
通過機器學習方法獲取所述詞庫中各個所述關鍵詞對應所述文本信息的多維數組;
基于各個所述關鍵詞對應的所述多維數組對所述多個關鍵詞進行聚類分析,得到多個詞語集合;
確定包含所述目標關鍵詞的所述詞語集合;
計算所述目標關鍵詞與第二關鍵詞之間的距離,其中,所述第二關鍵詞為包含所述目標關鍵詞的所述詞語集合中除所述目標關鍵詞之外的關鍵詞;
將符合預設條件的所述距離對應的所述第二關鍵詞作為所述關聯關鍵詞;
對所述文本信息進行分詞處理,得到包括多個關鍵詞的詞庫包括:從詞語數據庫中獲取預設詞匯組合,并將文本信息中的關鍵詞與詞語數據庫中的預設詞匯組合進行匹配,若文本信息中的關鍵詞與預設詞匯組合相同,則將該關鍵詞從文本信息中劃分出來,得到多個關鍵詞,保存得到的多個關鍵詞得到詞庫。
2.根據權利要求1所述的獲取方法,其特征在于,基于各個所述關鍵詞對應的所述多維數組對所述多個關鍵詞進行聚類分析,得到多個詞語集合包括:
使用各個所述多維數組對多個所述關鍵詞進行聚類,得到多個所述詞語集合,其中,所述多維數組中的一維數據用于描述所述關鍵詞的一個屬性信息。
3.根據權利要求2所述的獲取方法,其特征在于,
計算所述目標關鍵詞與第二關鍵詞之間的距離包括:計算所述目標關鍵詞的第一多維數組與所述第二關鍵詞的第二多維數組之間的歐式距離;
將符合預設條件的所述距離對應的所述第二關鍵詞作為所述關聯關鍵詞包括:
對計算得到的所述歐式距離進行倒序排序,得到距離排序表;
將所述距離排序表中排序前N位的所述歐式距離的所述第二關鍵詞作為所述關聯關鍵詞,其中,N為自然數。
4.根據權利要求2所述的獲取方法,其特征在于,
計算所述目標關鍵詞與第二關鍵詞之間的距離包括:計算所述目標關鍵詞的第一多維數組與所述第二關鍵詞的第二多維數組之間的歐式距離;
將符合預設條件的所述距離對應的所述第二關鍵詞作為所述關聯關鍵詞包括:
將不大于預設閾值的所述歐式距離的所述第二關鍵詞作為所述關聯關鍵詞。
5.根據權利要求1至4中任意一項所述的獲取方法,其特征在于,對所述文本信息進行分詞處理,得到包括多個關鍵詞的詞庫包括:
按照預設詞匯組合將所述文本信息拆分為所述多個關鍵詞;
保存所述多個關鍵詞得到所述詞庫。
6.一種關鍵詞的關聯關鍵詞的獲取裝置,其特征在于,包括:
第一獲取模塊,用于接收用于獲取關聯關鍵詞的獲取請求,其中,所述獲取請求中攜帶有目標關鍵詞和包含所述目標關鍵詞的文本信息;
分詞模塊,用于對所述文本信息進行分詞處理,得到包括多個關鍵詞的詞庫,其中,所述關鍵詞包括所述目標關鍵詞;
第二獲取模塊,用于通過機器學習方法獲取所述詞庫中各個所述關鍵詞對應所述文本信息的多維數組;
聚類模塊,用于基于各個所述關鍵詞對應的所述多維數組對所述多個關鍵詞進行聚類分析,得到多個詞語集合;
第一確定模塊,用于確定包含所述目標關鍵詞的所述詞語集合;
計算模塊,用于計算所述目標關鍵詞與第二關鍵詞之間的距離,其中,所述第二關鍵詞為包含所述目標關鍵詞的所述詞語集合中除所述目標關鍵詞之外的關鍵詞;
第二確定模塊,用于確定將符合預設條件的所述距離對應的所述第二關鍵詞作為所述關聯關鍵詞;
對所述文本信息進行分詞處理,得到包括多個關鍵詞的詞庫包括:從詞語數據庫中獲取預設詞匯組合,并將文本信息中的關鍵詞與詞語數據庫中的預設詞匯組合進行匹配,若文本信息中的關鍵詞與預設詞匯組合相同,則將該關鍵詞從文本信息中劃分出來,得到多個關鍵詞,保存得到的多個關鍵詞得到詞庫。
7.根據權利要求6所述的獲取裝置,其特征在于,所述聚類模塊包括:
聚類子模塊,用于使用各個所述多維數組對多個所述關鍵詞進行聚類,得到多個所述詞語集合,其中,所述多維數組中的一維數據用于描述所述關鍵詞的一個屬性信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410779363.X/1.html,轉載請聲明來源鉆瓜專利網。





