[發明專利]文本搜索方法及系統有效
| 申請號: | 201810322657.8 | 申請日: | 2018-04-11 |
| 公開(公告)號: | CN108733757B | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 汪元;桂洪冠;紀達麒;陳運文 | 申請(專利權)人: | 達而觀信息科技(上海)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/289;G06F16/35 |
| 代理公司: | 北京知果之信知識產權代理有限公司 11541 | 代理人: | 唐海力;李志剛 |
| 地址: | 201203 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 搜索 方法 系統 | ||
1.一種文本搜索方法,其特征在于,包括:
獲取輸入文本;
根據預設的文本改寫規則獲得所述輸入文本對應的候選文本;
所述根據預設的文本改寫規則獲得所述輸入文本對應的候選文本包括:獲取輸入文本;獲取所述輸入文本的字符歸一化處理結果;獲取所述輸入文本的句處理結果;獲取所述輸入文本的詞處理結果;
所述獲取所述輸入文本的詞處理結果包括:對所述輸入文本進行分詞得到各詞;在所述序列候選集中獲取所述各詞所對應的詞處理結果;
所述序列候選集的構建方法包括:
構造用戶輸入文本與用戶點擊鏈接的矩陣通過協同過濾算法計算輸入文本相似度;
通過訓練語料訓練word2vec模型,將所得的詞向量根據詞性加權疊加得到輸入文本語義相似度;
根據業務邏輯構造輸入文本特征相似度,所述文本特征相似度包括但不限于;文檔的類目特征相似度、熱度特征相似度、標簽特征相似度;
整合各維度相似度,得到相似候選集;
對相似候選集進行樣本標注,并將得到的第一文本序列輸入LambdaMart模型中訓練,獲得序列候選集;
獲取所述候選文本的搜索結果;
獲取所述候選文本的搜索結果包括:
獲取輸入文本的詞處理結果的預搜索結果;
判斷所述輸入文本的詞處理結果的預搜索結果是否達到預設的終結條件;
如果輸入文本的詞處理結果的預搜索結果未達到預設的終結條件,則獲取輸入文本的句處理結果;
獲取所述輸入文本的句處理結果的預搜索結果;
判斷所述輸入文本的句處理結果的預搜索結果是否達到預設的終結條件;
如果輸入文本的句處理結果的預搜索結果未達到預設的終結條件,則處理輸入文本的句處理結果;
獲取所述句處理結果的整體結構處理結果;
獲取所述整體結構處理結果的搜索結果。
2.根據權利要求1所述的文本搜索方法,其特征在于,所述序列候選集的構建方法包括:
根據訓練語料的特征向量獲取相似候選集;
對所述相似候選集進行模型訓練獲得序列候選集。
3.一種文本搜索系統,其特征在于,包括:
文本改寫模塊,用于根據預設改寫規則對輸入文本進行改寫得到候選文本;
所述根據預設的文本改寫規則獲得所述輸入文本對應的候選文本包括:獲取輸入文本;獲取所述輸入文本的字符歸一化處理結果;獲取所述輸入文本的句處理結果;獲取所述輸入文本的詞處理結果;
所述獲取所述輸入文本的詞處理結果包括:對所述輸入文本進行分詞得到各詞;在所述序列候選集中獲取所述各詞所對應的詞處理結果;
所述序列候選集的構建方法包括:
構造用戶輸入文本與用戶點擊鏈接的矩陣通過協同過濾算法計算輸入文本相似度;
通過訓練語料訓練word2vec模型,將所得的詞向量根據詞性加權疊加得到輸入文本語義相似度;
根據業務邏輯構造輸入文本特征相似度,所述文本特征相似度包括但不限于;文檔的類目特征相似度、熱度特征相似度、標簽特征相似度;
整合各維度相似度,得到相似候選集;
對相似候選集進行樣本標注,并將得到的第一文本序列輸入LambdaMart模型中訓練,獲得序列候選集;
搜索及結果評分模塊,用于對所述候選文本進行搜索并對其搜索結果進行評分;
獲取所述候選文本的搜索結果包括:
獲取輸入文本的詞處理結果的預搜索結果;
判斷所述輸入文本的詞處理結果的預搜索結果是否達到預設的終結條件;
如果輸入文本的詞處理結果的預搜索結果未達到預設的終結條件,則獲取輸入文本的句處理結果;
獲取所述輸入文本的句處理結果的預搜索結果;
判斷所述輸入文本的句處理結果的預搜索結果是否達到預設的終結條件;
如果輸入文本的句處理結果的預搜索結果未達到預設的終結條件,則處理輸入文本的句處理結果;
獲取所述句處理結果的整體結構處理結果;
獲取所述整體結構處理結果的搜索結果。
4.一種計算機可讀存儲介質,其上存儲有計算機程序,其中,所述計算機程序被處理器執行時實現如權利要求1至2中任一項所述的方法。
5.一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其中,所述處理器執行所述計算機程序時實現如權利要求1至2中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于達而觀信息科技(上海)有限公司,未經達而觀信息科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810322657.8/1.html,轉載請聲明來源鉆瓜專利網。





