[發明專利]一種用于文本搜索的方法及設備有效
| 申請號: | 202110795549.4 | 申請日: | 2021-07-14 |
| 公開(公告)號: | CN113515940B | 公開(公告)日: | 2022-12-13 |
| 發明(設計)人: | 吳鵬;王夷;張劍;李東曉;俞楠;吳翔 | 申請(專利權)人: | 上海芯翌智能科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F40/30 |
| 代理公司: | 上海百一領御專利代理事務所(普通合伙) 31243 | 代理人: | 王奎宇;朱永海 |
| 地址: | 200331 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 文本 搜索 方法 設備 | ||
本申請提供一種用于文本搜索的技術方案,獲取輸入文本;基于預設詞典,對輸入文本進行預處理,以獲得候選文本集,其中的每個候選文本包含若干詞元,其中,每個詞元包含詞文本、詞文本的標注詞性及在候選文本中的位置信息;基于候選文本集及預設語料庫,識別用戶搜索意圖,并確定候選文本集中的相關詞元及其權重;根據用戶搜索意圖,遍歷每個候選文本進行文本搜索,并基于相關詞元的權重及其位置信息,對獲得的搜索結果進行評分,以獲得搜索結果集,其中每個搜索結果關聯一個第一得分;根據每個搜索結果的第一得分對搜索結果集排序,并返回排序前N個搜索結果,其中,N是預設值。本申請的技術方案可返回精準度較高的搜索結果。
技術領域
本申請涉及計算機數據處理技術領域,尤其涉及一種用于文本搜索的技術。
背景技術
隨著互聯網的飛速發展,人們越來越多地通過連接到互聯網的計算機或智能終端設備獲取信息。常用的人機交互方式是用戶輸入要搜索的文本,由計算機或智能終端設備采用搜索引擎或專用應用程序完成搜索,返回搜索結果。
如何使得返回的搜索結果更精準是一個要面對的技術問題。
發明內容
本申請的目的是提供一種用于文本搜索的方法及設備,用以解決如何獲得精準度更高的搜索結果的技術問題。
根據本申請的一個方面,提供了一種用于文本搜索的方法,其特征在于,所述方法包括:
獲取輸入文本;
基于預設詞典,對所述輸入文本進行預處理,以獲得候選文本集,其中,所述候選文本集中的每個候選文本包含若干詞元,其中,每個詞元包含詞文本、該詞文本的標注詞性及該詞文本在該候選文本中的位置信息;
基于所述候選文本集及預設語料庫,識別用戶搜索意圖,并確定所述候選文本集中的相關詞元及其權重;
根據用戶搜索意圖,遍歷每個候選文本進行文本搜索,并基于所述相關詞元的權重及所述相關詞元的位置信息,對獲得的搜索結果進行評分,以獲得搜索結果集,其中,所述搜索結果集中每個搜索結果關聯一個第一得分;
根據每個搜索結果的第一得分對所述搜索結果集中的搜索結果排序,并返回排序前N個搜索結果,其中,N是預設值。
可選地,其中,所述基于預設詞典,對所述輸入文本進行預處理,以獲得候選文本集包括:
基于預設詞典,對所述輸入文本進行分詞,以獲得若干詞文本;
對每個詞文本進行詞性標注及確定該詞文本在所述輸入文本中的位置信息,以獲得若干詞元;
確定所述若干詞文本中的一個或若干個為關鍵詞,并確定所述關鍵詞的關聯詞;
基于所述若干詞元及所述關聯詞,獲得候選文本集。
可選地,所述基于所述候選文本集及預設語料庫,識別用戶搜索意圖包括:
分別對每個候選文本進行語義分析,獲得語義分析結果;
基于預設語料庫生成分類規則,并根據所述分類規則及所述語義分析結果,識別用戶搜索意圖。
可選地,其中,所述基于預設語料庫生成分類規則,并根據所述分類規則及所述語義分析結果,識別用戶搜索意圖包括:
基于預設語料庫生成分類規則,并對所述分類規則進行審核;
根據通過審核的分類規則及所述語義分析結果,識別用戶搜索意圖。
可選地,其中,所述相關詞元的權重的確定包括以下至少一項:
根據相關詞元的標注詞性,確定相關詞元權重;
對相關詞元的詞文本進行熱詞分析,并基于熱詞分析結果,確定相關詞元權重;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海芯翌智能科技有限公司,未經上海芯翌智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110795549.4/2.html,轉載請聲明來源鉆瓜專利網。





