[發明專利]一種基于共現詞頻的核心搜索詞組確定方法在審
| 申請號: | 202211711414.6 | 申請日: | 2022-12-29 |
| 公開(公告)號: | CN115952332A | 公開(公告)日: | 2023-04-11 |
| 發明(設計)人: | 帥丹 | 申請(專利權)人: | 企知道網絡技術有限公司 |
| 主分類號: | G06F16/9032 | 分類號: | G06F16/9032;G06F40/216 |
| 代理公司: | 武漢維興專利代理有限公司 42298 | 代理人: | 彭聰 |
| 地址: | 518000 廣東省深圳市南山區西麗*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 詞頻 核心 搜索 詞組 確定 方法 | ||
本申請涉及搜索的技術領域,尤其涉及一種基于共現詞頻的核心搜索詞組確定方法。本申請通過對搜索文本進行分詞,得到多個目標詞語,然后基于查找詞頻文件確定一個核心詞,以及基于查找共現詞頻文件確定剩余目標詞語與核心詞的共現詞頻,從而確定出降維后的核心搜索詞組,實現對搜索文本的降維,能夠在對搜索文本降維后得到關鍵信息,以及通過共現詞頻文件篩選掉搜索文本中的錯誤信息。
技術領域
本申請涉及搜索的技術領域,尤其是涉及一種基于共現詞頻的核心搜索詞組確定方法。
背景技術
目前,在垂直搜索領域中,在獲取到用戶輸入的搜索文本后,會在數據庫中查找與搜索文本相關的信息。
但是當用戶輸入過多時,搜索文本中的信息過多,基于全部搜索文本無法搜索出想要的內容,且處理過程的效率較低。因此,需要針對用戶輸入的文本進行降維,確定新的核心搜索詞組,以提高搜索的效率。
現有的核心搜索詞組確定方法是從搜索文本中獲取到分詞,然后基于分詞的詞頻選擇滿足門限閾值的分詞替代搜索文本。然而當用戶輸入搜索文本過多或者輸入錯誤信息時,僅僅通過各個分詞的詞頻進行選擇核心詞,無法準確地選擇出關鍵信息,以及篩選掉錯誤信息。
發明內容
為了更有效地選擇出關鍵信息,本申請提供一種基于共現詞頻的核心搜索詞組確定方法,采用如下的技術方案:
一種基于共現詞頻的核心搜索詞組確定方法,包括如下步驟:
對用戶輸入的搜索文本進行分詞,得到M+1個目標詞語;
查找詞頻文件,將詞頻最小的1個目標詞語確定為核心詞;
對剩余的M個目標詞語按照N由小到大的順序依次遍歷:
從剩余的M個目標詞語中選擇N個目標詞語作為本次遍歷預選詞組,確定核心詞與本次遍歷預選詞組在共現詞頻文件中的共現詞頻;
在確定所述共現詞頻大于0、所述共現詞頻相比核心詞的詞頻的減小比例大于預設減少經驗值、且所述共現詞頻小于預設結果共現數值的情況下,確定本次遍歷預選詞組為預選核心詞組;其中,M不小于N,且M和N均為正整數;
將所述核心詞與所述預選核心詞組組成降維后的核心搜索詞組。
通過采用上述技術方案,本申請通過對搜索文本進行分詞,得到多個目標詞語,然后基于查找詞頻文件確定一個核心詞,以及基于查找共現詞頻文件確定剩余目標詞語與核心詞的共現詞頻,從而確定出降維后的核心詞組,實現對搜索文本的降維,能夠在對搜索文本降維后得到關鍵信息,以及通過共現詞頻文件篩選掉搜索文本中的錯誤信息。
可選的,所述查找詞頻文件,將詞頻最小的1個目標詞語確定為核心詞的過程中,包括:
查找詞頻文件,將目標詞語按照詞頻由小到大依次排序,得到目標詞語集合;
將目標詞語集合中第一個目標詞語確定為核心詞。
通過采用上述技術方案,通過查找詞頻文件,將目標詞語按照詞頻由小到達依次排序,得到目標詞語集合,將第一個目標詞語確定為核心詞,在確定核心詞的同時,對目標詞語進行排序,從而使得后續遍歷剩余目標詞語時,能夠先遍歷到詞頻較小的目標詞語。
可選的,所述在確定所述共現詞頻大于0、所述共現詞頻相比核心詞的詞頻的減小比例大于預設減少經驗值、且所述共現詞頻小于預設結果共現數值的情況下,確定本次遍歷預選詞組為預選核心詞組的過程中,包括:
在確定所述共現詞頻大于0、所述共現詞頻相比核心詞的詞頻的減小比例大于預設減少經驗值、且所述共現詞頻小于預設結果共現數值的情況下,將本次遍歷預選詞組加入預選詞組集合;
在遍歷完剩余的M個目標詞語后、且預選詞組集合中存在預選詞組的情況下,將預選詞組集合中與核心詞的共現頻率最小的預選詞組確定為預選核心詞組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于企知道網絡技術有限公司,未經企知道網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211711414.6/2.html,轉載請聲明來源鉆瓜專利網。





