[發(fā)明專利]選取搜索意圖詞組的方法和裝置在審
| 申請?zhí)枺?/td> | 202010544790.5 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111723291A | 公開(公告)日: | 2020-09-29 |
| 發(fā)明(設計)人: | 蘇孔明;陳華榮;亓超;馬宇馳 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/951 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 選取 搜索 意圖 詞組 方法 裝置 | ||
1.一種選取搜索意圖詞組的方法,其特征在于,該方法包括:
基于多個已知意圖詞組,從預設置文本庫的樣本文本中確定多個候選意圖詞組;所述多個候選意圖詞組包括所述多個已知意圖詞組中的各個詞;所述多個候選意圖詞組中詞的個數多于所述多個已知意圖詞組中詞的個數;任一候選意圖詞組中相鄰的任意兩個詞在提取所述任一候選意圖詞組的樣本文本中是相鄰的位置關系;
計算各個候選意圖詞組的參數信息;
當所述參數信息符合條件時,選取符合條件的參數信息對應的候選意圖詞組作為搜索意圖詞組。
2.根據權利要求1所述的方法,其特征在于,所述基于多個已知意圖詞組,從預設置文本庫的樣本文本中確定多個候選意圖詞組,包括:
在所述預設置文本庫的樣本文本中,查找到所述多個已知意圖詞組所在樣本文本的文本位置;
根據每一已知意圖詞組所在樣本文本的文本位置,從該樣本文本中獲取相應的候選意圖詞組,所述候選意圖詞組中包括相應已知意圖詞組中的任一個詞,且所述候選意圖詞組中包括詞的個數滿足預定取詞數。
3.根據權利要求1所述的方法,其特征在于,計算任一候選意圖詞組的參數信息,包括:
確定任一候選意圖詞組中每一個詞的頁面出現頻率;
根據所述頁面出現頻率,計算確定所述任一候選意圖詞組的頁面出現頻率乘積;
計算確定所述任一候選意圖詞組在所有候選意圖詞組中的出現頻率;
將所述頁面出現頻率乘積與所述出現頻率的比值作為所述任一候選意圖詞組的參數信息。
4.根據權利要求3所述的方法,其特征在于,計算任一候選意圖詞組的參數信息,包括:
計算所述任一候選意圖詞組的周邊詞的周邊詞熵;所述周邊詞為在提取所述任一候選意圖詞組的樣本文本中、與所述任一候選意圖詞組位置關系為相鄰的詞;
確定所述任一候選意圖詞組每個詞的文本集合出現頻率,所述文本集合出現頻率為每一詞在所述預設置文本庫的所有樣本文本中出現的頻率;
將所述周邊詞熵、所述頁面出現頻率、所述任一候選意圖詞組每個詞的文本集合出現頻率及所述比值作為所述參數信息。
5.根據權利要求3所述的方法,其特征在于,當所述參數信息符合條件時,選取所述參數信息對應的候選意圖詞組作為搜索意圖詞組,包括:
對參數信息按照由大到小的排序方式進行排序;
將排序前預定位數的參數信息所對應候選意圖詞組作為搜索意圖詞組。
6.根據權利要求4所述的方法,其特征在于,當所述參數信息符合條件時,選取所述參數信息對應的候選意圖詞組作為搜索意圖詞組,包括:
當所述周邊詞熵、所述頁面出現頻率、所述任一候選意圖詞組每個詞的文本集合出現頻率、所述比值分別處于與其所對應的取值范圍內時,選取所述參數信息對應的候選意圖詞組作為搜索意圖詞組。
7.根據權利要求1所述的方法,其特征在于,所述方法還包括:
預先從多個網站、數據庫,利用語料爬蟲的方式爬取到可用于訓練搜索意圖詞組的一類樣本文本,將該類樣本文本作為所述預設置文本庫。
8.一種選取搜索意圖詞組的裝置,其特征在于,該裝置包括:
確定模塊,用于基于多個已知意圖詞組,從預設置文本庫的樣本文本中確定多個候選意圖詞組;所述多個候選意圖詞組包括所述多個已知意圖詞組中的各個詞;所述多個候選意圖詞組中詞的個數多于所述多個已知意圖詞組中詞的個數;任一候選意圖詞組中相鄰的任意兩個詞在提取所述任一候選意圖詞組的樣本文本中是相鄰的位置關系;
計算模塊,用于計算各個候選意圖詞組的參數信息;
選取模塊,用于當所述參數信息符合條件時,選取符合條件的參數信息對應的候選意圖詞組作為搜索意圖詞組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010544790.5/1.html,轉載請聲明來源鉆瓜專利網。





