[發明專利]詞權重生成方法和裝置有效
| 申請號: | 201410650467.0 | 申請日: | 2014-11-14 |
| 公開(公告)號: | CN105653553B | 公開(公告)日: | 2020-04-03 |
| 發明(設計)人: | 趙琳;王迪;周連強 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/9535;G06F40/289 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 何平;鄧云鵬 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 權重 生成 方法 裝置 | ||
本發明提供了一種詞權重生成方法和裝置,該方法包括:獲取待處理查詢串;對所述待處理查詢串進行分詞處理以獲得待處理切分詞;將所述待處理切分詞和連續多個所述待處理切分詞的順序組合形成待處理詞片段的集合;獲取所述待處理切分詞相對于每個包含該待處理切分詞的所述待處理詞片段的預訓練詞權重;根據所述獲取的預訓練詞權重計算出所述待處理切分詞相對于所述待處理查詢串的擬合詞權重。本發明提供的詞權重生成方法和裝置,考慮了待處理查詢串中各個詞在該待處理查詢串中的詞權重,能夠準確反映出用戶的檢索需求,利用該擬合詞權重對檢索結果排序后使得檢索結果更加貼近檢索需求,提升檢索準確性以及效率。
技術領域
本發明涉及互聯網信息處理技術領域,特別是涉及一種詞權重生成方法和裝置。
背景技術
詞權重是一個詞的重要程度的量化表示,一個詞的詞權重越大表示這個詞越重要。在搜索時詞權重是搜索排序的重要依據,比如可以將查詢串進行分詞處理后按照各個切分詞的詞權重高低來進行搜索排序,將詞權重高的優先顯示,可以提供更貼近用戶搜索需求的搜索結果。
目前計算詞權重一般采用TF-IDF(Term Frequency–Inverse DocumentFrequency,詞頻-逆文檔頻率)算法計算獲得。TF-IDF算法的主要思想是,如果某個詞或短語在一篇文檔中出現的頻率高,并且在其他文檔中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。詞頻(Term Frequency)指的是某一個給定的詞語在該文檔中出現的次數或頻率,反文檔頻率(Inverse Document Frequency)的主要思想是:如果包含詞條的文檔越少,IDF越大,則說明詞條具有很好的類別區分能力。使用TF-IDF算法可以計算出某個詞或短語在某篇文檔里面的重要性。
然而,目前采用TF-IDF算法計算詞權重,僅僅是基于靜態語料庫的,該靜態語料庫包含若干事先人為選定的文檔。這樣計算出的詞權重的準確性依賴于靜態語料庫中的文檔,并不能準確反映出詞對于廣大用戶的真實重要程度,從而影響搜索結果的準確性。
發明內容
基于此,有必要針對目前采用TF-IDF算法計算詞權重不能準確反映出詞對于廣大用戶的真實重要程度導致影響搜索結果準確性的問題,提供一種詞權重生成方法和裝置。
一種詞權重生成方法,所述方法包括:
獲取待處理查詢串;
對所述待處理查詢串進行分詞處理以獲得待處理切分詞;
將所述待處理切分詞和連續多個所述待處理切分詞的順序組合形成待處理詞片段的集合;
獲取所述待處理切分詞相對于每個包含該待處理切分詞的所述待處理詞片段的預訓練詞權重;
根據所述獲取的預訓練詞權重計算出所述待處理切分詞相對于所述待處理查詢串的擬合詞權重。
一種詞權重生成裝置,所述裝置包括:
待處理查詢串獲取模塊,用于獲取待處理查詢串;
待處理查詢串分詞模塊,用于對所述待處理查詢串進行分詞處理以獲得待處理切分詞;
待處理詞片段生成模塊,用于將所述待處理切分詞和連續多個所述待處理切分詞的順序組合形成待處理詞片段的集合;
預訓練詞權重獲取模塊,用于獲取所述待處理切分詞相對于每個包含該待處理切分詞的所述待處理詞片段的預訓練詞權重;
擬合詞權重計算模塊,用于根據所述獲取的預訓練詞權重計算出所述待處理切分詞相對于所述待處理查詢串的擬合詞權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410650467.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本序列數據中快速查找特征字符串的方法
- 下一篇:網頁過濾方法和裝置





