[發明專利]搜索庫生成方法及裝置有效
| 申請號: | 201611232569.6 | 申請日: | 2016-12-27 |
| 公開(公告)號: | CN106708285B | 公開(公告)日: | 2019-11-08 |
| 發明(設計)人: | 李延平;姜佩;潘小兵 | 申請(專利權)人: | 優地網絡有限公司 |
| 主分類號: | G06F3/023 | 分類號: | G06F3/023 |
| 代理公司: | 深圳中一專利商標事務所 44237 | 代理人: | 陽開亮 |
| 地址: | 518000 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 拼音搜索 拼音組合 搜索 搜索關鍵字 庫生成 預設 過濾 多音字 信息處理領域 多音字搜索 準確率 詞句 | ||
1.一種搜索庫生成方法,其特征在于,所述搜索庫生成方法包括:
建立第一拼音搜索庫,所述第一拼音搜索庫包括詞句的全部拼音組合;
獲取用戶輸入的搜索關鍵字;
按預設拼音組合規則對所述搜索關鍵字進行過濾,生成第一搜索拼音組合,具體地,獲取用戶采納的搜索結果詞句;將所述搜索關鍵字和所述搜索結果詞句建立關聯,并生成關聯記錄;基于所述關聯記錄,獲取同一個搜索結果詞句所對應的所有搜索關鍵字;基于所述同一個搜索結果詞句所對應的所有搜索關鍵字,生成第一搜索拼音組合;
基于所述第一搜索拼音組合,按預設多音字搜索規則對所述第一拼音搜索庫進行過濾,將所述第一拼音搜索庫中除所述第一搜索拼音組合和預設拼音組合以外的其余拼音組合刪除,生成第二拼音搜索庫,具體地,基于所述關聯記錄,統計所述關聯記錄中同一個搜索關鍵字關聯同一個搜索結果詞句的關聯次數占比;過濾所述第一搜索拼音組合中,所述關聯次數占比小于預設關聯次數占比閾值的搜索關鍵字,以生成第二搜索拼音組合;基于所述第二搜索拼音組合對第一拼音搜索庫進行過濾,生成第二拼音搜索庫。
2.根據權利要求1任一項所述的搜索庫生成方法,其特征在于,所述建立第一拼音搜索庫,所述第一拼音搜索庫包括詞句的全部拼音組合,包括:
獲取詞句中的文字個數和多音字個數;
基于所述文字個數和所述多音字個數,獲取所述詞句的全部拼音組合;
基于詞句的全部拼音組合建立第一拼音搜索庫。
3.一種搜索庫生成裝置,其特征在于,所述搜索庫生成裝置包括:
第一拼音搜索庫建立單元,用于建立第一拼音搜索庫,所述第一拼音搜索庫包括詞句的全部拼音組合;
搜索關鍵字獲取單元,用于獲取用戶輸入的搜索關鍵字;
第一搜索拼音組合生成單元,用于按預設拼音組合規則對所述搜索關鍵字進行過濾,生成第一搜索拼音組合;
所述第一搜索拼音組合生成單元包括:
搜索結果詞句獲取模塊,用于獲取用戶采納的搜索結果詞句;
關聯記錄生成模塊,用于將所述搜索關鍵字和所述搜索結果詞句建立關聯,并生成關聯記錄;
搜索關鍵字獲取模塊,用于基于所述關聯記錄,獲取同一個搜索結果詞句所對應的所有搜索關鍵字;
第一搜索拼音組合生成模塊,用于基于所述同一個搜索結果詞句所對應的所有搜索關鍵字,生成第一搜索拼音組合;
第二拼音搜索庫生成單元,用于基于所述第一搜索拼音組合,按預設多音字搜索規則對所述第一拼音搜索庫進行過濾,將所述第一拼音搜索庫中除所述第一搜索拼音組合和預設拼音組合以外的其余拼音組合刪除,生成第二拼音搜索庫;
所述第二拼音搜索庫生成單元包括:
關聯次數占比統計模塊,用于基于所述關聯記錄,統計所述關聯記錄中同一個搜索關鍵字關聯同一個搜索結果詞句的關聯次數占比;
第二搜索拼音組合生成模塊,用于過濾所述第一搜索拼音組合中,所述關聯次數占比小于預設關聯次數占比閾值的搜索關鍵字,以生成第二搜索拼音組合;
第二拼音搜索庫生成模塊,用于基于所述第二搜索拼音組合對第一拼音搜索庫進行過濾,生成第二拼音搜索庫。
4.根據權利要求3所述的搜索庫生成裝置,其特征在于,所述第一拼音搜索庫建立單元包括:
個數獲取模塊,用于獲取詞句中的文字個數和多音字個數;
拼音組合獲取模塊,用于基于所述文字個數和所述多音字個數,獲取所述詞句的全部拼音組合;
第一拼音搜索庫建立模塊,用于基于詞句的全部拼音組合建立第一拼音搜索庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于優地網絡有限公司,未經優地網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611232569.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種具有傾斜端面的裸露型光纖陣列的制作方法及其基板
- 下一篇:觸控筆





