[發明專利]一種短語挖掘方法及裝置有效
| 申請號: | 201910219059.2 | 申請日: | 2019-03-21 |
| 公開(公告)號: | CN110008309B | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 謝潤泉;李貴洋 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘;李娟 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 短語 挖掘 方法 裝置 | ||
1.一種短語挖掘方法,其特征在于,包括:
基于預設策略,獲取候選短語集;
根據預設過濾規則,對候選短語集進行過濾;
針對過濾后的候選短語集中每一個候選短語,獲得設定的多個維度中每個維度的特征信息;
基于精選短語質量模型分別獲得以各候選短語每個維度的特征信息為輸入參數確定的質量分值,所述精選短語質量模型用于根據候選短語各維度的特征信息確定候選短語的質量分值;
根據各候選短語的質量分值,篩選出滿足預設質量條件的短語,其中,所述滿足預設質量條件的短語為質量分值大于設定值的候選短語;
分別獲取所述滿足預設質量條件的短語在搜索引擎中對應的標簽,并將對應的標簽映射到預定義的類別;根據所述滿足預設質量條件的短語在搜索引擎的搜索結果中對應的統一資源定位符所屬的類別,修正標簽映射的類別。
2.如權利要求1所述的方法,其特征在于,基于預設策略,獲取候選短語集,具體包括:
從原始語料的分詞結果中篩選出頻次大于設定頻次值的n-gram短語;
基于粗選短語質量模型,分別確定篩選出的n-gram短語的質量分值,并基于各n-gram短語的質量分值,確定候選短語集;其中所述粗選短語質量模型用于根據n-gram短語的簡單特性信息確定質量分值。
3.如權利要求2所述的方法,其特征在于,所述粗選短語質量模型的訓練方式為:
獲取正樣本集和負樣本集;
分別提取所述正樣本集和負樣本集的簡單特征信息,并根據正樣本集和負樣本集的簡單特征信息,訓練得到粗選短語質量模型;
基于所述粗選短語質量模型,確定各n-gram短語的質量分值,并根據動態規劃算法和各n-gram短語的質量分值,對原始語料進行重新分詞;
根據原始語料重新分詞后的分詞結果,重新統計各n-gram短語的頻次,并將重新統計的頻次更新到正樣本集和負樣本集的簡單特征信息中,基于更新后的正樣本集和負樣本集的簡單特征信息,重新訓練所述粗選短語質量模型,直至達到預設迭代次數,獲得最終訓練的粗選短語質量模型。
4.如權利要求3所述的方法,其特征在于,獲取正樣本集和負樣本集,具體包括:
從原始語料的分詞結果中篩選出頻次大于設定頻次值的n-gram短語;
分別針對篩選出的n-gram短語,將存在于預設實體庫中的n-gram短語,作為正樣本集,并將未存在于預設實體庫中的n-gram短語,作為負樣本集。
5.如權利要求1所述的方法,其特征在于,進一步包括:
確定訓練正樣本集和訓練負樣本集;
分別提取訓練正樣本集和訓練負樣本集中各樣本設定的多個維度中每個維度的特征信息;
根據訓練正樣本集和負樣本集的各樣本設定的多個維度中每個維度的特征信息,構建精選短語質量模型。
6.如權利要求5所述的方法,其特征在于,確定訓練正樣本集和訓練負樣本集,具體包括:
獲取搜索次數大于設定次數并在點擊文本中緊鄰的實體短語,并作為訓練正樣本集,以及根據訓練正樣本集和短語包含關系,將包含訓練正樣本集中短語的父短語或被包含在訓練正樣本集中短語的子短語,作為訓練負樣本集;
根據協同訓練算法,獲取訓練正樣本和訓練負樣本,并將獲取的訓練正樣本和訓練負樣本,分別更新到所述訓練正樣本集和所述訓練負樣本集。
7.如權利要求1或5所述的方法,其特征在于,所述設定的多個維度中每個維度的特征信息至少包括:熱度維度特征、信息量維度特征、內凝度維度特征和完整性維度特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910219059.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:針對用戶問句補充信息的方法和裝置
- 下一篇:一種內容搜索方法及裝置





