[發(fā)明專利]文本搜索方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201810322657.8 | 申請日: | 2018-04-11 |
| 公開(公告)號: | CN108733757B | 公開(公告)日: | 2022-04-19 |
| 發(fā)明(設計)人: | 汪元;桂洪冠;紀達麒;陳運文 | 申請(專利權)人: | 達而觀信息科技(上海)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/289;G06F16/35 |
| 代理公司: | 北京知果之信知識產(chǎn)權代理有限公司 11541 | 代理人: | 唐海力;李志剛 |
| 地址: | 201203 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 搜索 方法 系統(tǒng) | ||
本申請公開了一種文本搜索方法及系統(tǒng)。該文本搜索方法包括獲取輸入文本;根據(jù)預設的文本改寫規(guī)則獲得所述輸入文本對應的候選文本;獲取所述候選文本的搜索結果。本申請解決了相關技術中由于無法準確理解用戶搜索意圖導致無法得到準確匹配結果的技術問題。
技術領域
本申請涉及網(wǎng)絡通信技術領域,具體而言,涉及一種文本搜索方法及系統(tǒng)。
背景技術
搜索引擎的的搜索過程主要包含兩個階段:匹配和排序。匹配階段是指根據(jù)用戶的查詢條件,盡可能多的返回相關的文檔,因此匹配階段也稱為粗排序階段。排序階段是指對已匹配到的文檔進行精排,把最符合用戶意圖的文檔排在前面。但在匹配的過程中,普遍的存在著“語義鴻溝”的問題,也即用戶的查詢與文檔并不一定顯性相關。以用戶查詢“Gucci手提包”為例,文檔庫中只包含“古馳女士包”的文檔是和用戶查詢相關的內(nèi)容,但搜索引擎中常規(guī)的倒排索引是無法命中該文檔的。因此為了更好地理解用戶的搜索意圖,我們需要對用戶的原始查詢進行改寫,從而得到更加豐富和更加準確的匹配結果。
針對上述搜索過程中存在的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本申請的主要目的在于提供一種文本搜索方法及系統(tǒng),以解決相關技術中由于無法準確理解用戶搜索意圖導致無法得到準確匹配結果的問題。
為了實現(xiàn)上述目的,根據(jù)本申請的一個方面,提供了一種文本搜索方法。
根據(jù)本申請的文本搜索方法包括:獲取輸入文本;根據(jù)預設的文本改寫規(guī)則獲得所述輸入文本對應的候選文本;獲取所述候選文本的搜索結果。
進一步的,所述根據(jù)預設的文本改寫規(guī)則獲得所述輸入文本對應的候選文本包括:獲取所述輸入文本的詞處理結果;對所述輸入文本進行分詞得到各詞;在所述序列候選集中獲取所述各詞所對應的的詞處理結果。
進一步的,所述根據(jù)預設的文本改寫規(guī)則獲得所述輸入文本對應的候選文本包括:對所述輸入文本進行分詞得到各詞;在所述序列候選集中獲取所述各詞所對應的的詞處理結果。
進一步的,所述獲取所述輸入文本的句處理結果的方法包括:在所述序列候選集中獲取所述輸入文本所對應的的句處理結果。
進一步的,所述序列候選集的構建方法包括:根據(jù)訓練語料的特征向量獲取相似候選集;對所述相似候選集進行模型訓練獲得序列候選集。
進一步的,獲取所述候選文本的搜索結果包括:獲取輸入文本的詞處理結果的預搜索結果;判斷所述輸入文本的詞處理結果的預搜索結果是否達到預設的終結條件;如果輸入文本的句處理結果的預搜索結果未達到預設的終結條件,則獲取輸入文本的句處理結果;獲取所述輸入文本的句處理結果的搜索結果。
進一步的,獲取輸入文本的句處理結果的搜索結果還包括:判斷輸入文本的句處理結果的預搜索結果是否達到預設的終結條件;如果輸入文本的句處理結果的預搜索結果未達到預設的終結條件,則處理輸入文本的句處理結果;獲取所述句處理結果的整體結構處理結果;獲取所述整體結構處理結果的搜索結果。
進一步的,所述獲取所述輸入文本的整體結構處理結果的方法包括:根據(jù)意圖識別結果與丟詞處理結果獲得所述結構處理結果。
進一步的,優(yōu)選獲取輸入文本的句處理結果的預搜索結果前,還包括對輸入文本的句處理結果進行詞處理。
為了實現(xiàn)上述目的,根據(jù)本申請的另一方面,提供了一種文本搜索系統(tǒng),其特征在于,包括:文本改寫模塊,用于根據(jù)預設改寫規(guī)則對輸入文本進行改寫得到候選文本;搜索及結果評分模塊,用于對所述候選文本進行搜索并對其搜索結果進行評分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于達而觀信息科技(上海)有限公司,未經(jīng)達而觀信息科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810322657.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





