[發明專利]一種文本信息的匹配、業務對象的推送方法和裝置在審
| 申請號: | 201410247068.X | 申請日: | 2014-06-05 |
| 公開(公告)號: | CN105183733A | 公開(公告)日: | 2015-12-23 |
| 發明(設計)人: | 何煒;李波;謝可;林鋒 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 趙娟 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 信息 匹配 業務 對象 推送 方法 裝置 | ||
技術領域
本申請涉及網絡通訊的技術領域,特別是涉及一種文本信息的匹配方法、一種業務對象的推送方法、一種文本信息的匹裝置和一種業務對象的推送裝置。
背景技術
隨著網絡的迅速發展,網絡信息急劇增加。用戶為了在海量的網絡信息中尋找所需的網絡信息,通常使用搜索引擎進行搜索。
搜索引擎指自動從因特網搜集信息,經過一定整理以后,提供給用戶進行查詢的系統。網絡信息浩瀚萬千,而且毫無秩序,所有的網絡信息像汪洋上的一個個小島,網頁鏈接是這些小島之間縱橫交錯的橋梁,而搜索引擎,則為用戶繪制一幅一目了然的信息地圖,供用戶隨時查閱。
在諸如相關查詢等功能上,搜索引擎通常執行特定的查詢詞改寫策略,對用戶輸入的查詢詞Q進行改寫,將查詢詞擴展到與查詢意圖相同或相近的相近詞Q’(即擴展詞)。通常,Q’是必須綁定有業務對象的擴展詞,否則無法達到解決業務對象曝光量少的目的。因此,搜索引擎往往是先通過各種改寫策略,將Q改寫為Q’,然后將Q’中的無效擴展詞(即未綁定有業務對象的擴展詞)剔除掉,保留有效擴展詞(即綁定有業務對象的擴展詞)集合。
對用戶輸入的查詢詞Q進行改寫,以將其擴展到查詢意圖相同或相近的相近詞Q’的擴展技術主要有以下幾種:
1、針對兩個查詢詞是否有一個相同的關鍵詞(token)相匹配,判斷查詢詞之間的內容相似性(ContentBased),繼而將Q改寫成Q’。
2、針對兩個查詢詞是否有相同的中心詞或者產品詞,判斷查詢詞之間的語義相似性(SyntaxBased),繼而將Q改寫成Q’。
3、針對兩個查詢詞是否出現在同一個用戶點擊流中,判斷查詢詞之間的用戶行為關聯度(SessionBased),繼而將Q改寫成Q’。
4、針對兩個查詢詞下用戶點擊的相同文檔的數量判斷查詢詞之間的文檔聚合程度(DocumentBased),繼而將Q改寫成Q’。
但是,上述四種擴展技術無謂地增加了<Q,Q’>擴展對中,無效擴展詞的計算量,大量浪費系統資源。
此外,上述四種擴展技術由于內部運算機制存在差異,因此擴展出的Q和Q’相關性尺度不一,因此無法對<Q,Q’>擴展對進行評價。
因此,目前需要本領域技術人員迫切解決的一個技術問題就是:如何提出一種文本信息的匹配,減少匹配計算量,減少系統資源的浪費,統一評價尺度。
發明內容
本申請實施例所要解決的技術問題是提供一種文本信息的匹配方法和一種業務對象的推送方法,用以減少匹配計算量,減少系統資源的浪費,統一評價尺度。
相應的,本申請實施例還提供了一種文本信息的匹配裝置和一種業務對象的推送裝置,用以保證上述方法的實現及應用。
為了解決上述問題,本申請實施例公開了一種文本信息的匹配方法,包括:
獲取待匹配的第一文本信息集合和第二文本信息集合;所述第一文本信息集合包括有限數量的第一文本信息,所述第二文本信息集合包括有限數量的第二文本信息;以及
按照預置的規則查詢出與所述有限數量的第一文本信息中的每一者相匹配的所述有限數量的第二文本信息中的一者或者多者。
優選地,所述第一文本信息和所述第二文本信息具有對應的類目;
所述按照預置的規則查詢出與所述有限數量的第一文本信息中的每一者相匹配的所述有限數量的第二文本信息中的一者或者多者的步驟包括:
按照預置的組合規則將所述第一文本信息和所述第二文本信息組成擴展文本信息組合;
從所述擴展文本信息組合中提取特征文本信息組合,所述特征文本信息組合為類目匹配的第一文本信息和第二文本信息所組成的擴展文本信息組合;
計算所述特征文本信息組合所包含的第二文本信息的特征值;以及
將特征值順序排序在前的一個或多個第二文本信息及對應的第一文本信息,設置為相互映射的第一文本信息和第二文本信息。
優選地,所述按照預置的組合規則將所述第一文本信息和所述第二文本信息組成擴展文本信息組合的步驟包括:
對所述第一文本信息進行分詞處理,獲得文本分詞;
對所述第二文本信息建立倒排索引;
在所述倒排索引中查找與所述文本分詞匹配的第二文本信息;以及
將所述文本分詞所屬的第一文本信息,與所述匹配的第二文本信息組成擴展文本信息組合。
優選地,所述按照預置的組合規則將所述第一文本信息和所述第二文本信息組成擴展文本信息組合的步驟還包括:
對所述文本分詞匹配的第二文本信息進行去重處理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410247068.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種使用同一種載熱體對反應釜加熱、激冷和冷卻的裝置
- 下一篇:車輛用控制裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





