[發(fā)明專利]一種基于共現(xiàn)詞頻的核心搜索詞組確定方法在審
| 申請?zhí)枺?/td> | 202211711414.6 | 申請日: | 2022-12-29 |
| 公開(公告)號: | CN115952332A | 公開(公告)日: | 2023-04-11 |
| 發(fā)明(設(shè)計(jì))人: | 帥丹 | 申請(專利權(quán))人: | 企知道網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G06F16/9032 | 分類號: | G06F16/9032;G06F40/216 |
| 代理公司: | 武漢維興專利代理有限公司 42298 | 代理人: | 彭聰 |
| 地址: | 518000 廣東省深圳市南山區(qū)西麗*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 詞頻 核心 搜索 詞組 確定 方法 | ||
本申請涉及搜索的技術(shù)領(lǐng)域,尤其涉及一種基于共現(xiàn)詞頻的核心搜索詞組確定方法。本申請通過對搜索文本進(jìn)行分詞,得到多個目標(biāo)詞語,然后基于查找詞頻文件確定一個核心詞,以及基于查找共現(xiàn)詞頻文件確定剩余目標(biāo)詞語與核心詞的共現(xiàn)詞頻,從而確定出降維后的核心搜索詞組,實(shí)現(xiàn)對搜索文本的降維,能夠在對搜索文本降維后得到關(guān)鍵信息,以及通過共現(xiàn)詞頻文件篩選掉搜索文本中的錯誤信息。
技術(shù)領(lǐng)域
本申請涉及搜索的技術(shù)領(lǐng)域,尤其是涉及一種基于共現(xiàn)詞頻的核心搜索詞組確定方法。
背景技術(shù)
目前,在垂直搜索領(lǐng)域中,在獲取到用戶輸入的搜索文本后,會在數(shù)據(jù)庫中查找與搜索文本相關(guān)的信息。
但是當(dāng)用戶輸入過多時(shí),搜索文本中的信息過多,基于全部搜索文本無法搜索出想要的內(nèi)容,且處理過程的效率較低。因此,需要針對用戶輸入的文本進(jìn)行降維,確定新的核心搜索詞組,以提高搜索的效率。
現(xiàn)有的核心搜索詞組確定方法是從搜索文本中獲取到分詞,然后基于分詞的詞頻選擇滿足門限閾值的分詞替代搜索文本。然而當(dāng)用戶輸入搜索文本過多或者輸入錯誤信息時(shí),僅僅通過各個分詞的詞頻進(jìn)行選擇核心詞,無法準(zhǔn)確地選擇出關(guān)鍵信息,以及篩選掉錯誤信息。
發(fā)明內(nèi)容
為了更有效地選擇出關(guān)鍵信息,本申請?zhí)峁┮环N基于共現(xiàn)詞頻的核心搜索詞組確定方法,采用如下的技術(shù)方案:
一種基于共現(xiàn)詞頻的核心搜索詞組確定方法,包括如下步驟:
對用戶輸入的搜索文本進(jìn)行分詞,得到M+1個目標(biāo)詞語;
查找詞頻文件,將詞頻最小的1個目標(biāo)詞語確定為核心詞;
對剩余的M個目標(biāo)詞語按照N由小到大的順序依次遍歷:
從剩余的M個目標(biāo)詞語中選擇N個目標(biāo)詞語作為本次遍歷預(yù)選詞組,確定核心詞與本次遍歷預(yù)選詞組在共現(xiàn)詞頻文件中的共現(xiàn)詞頻;
在確定所述共現(xiàn)詞頻大于0、所述共現(xiàn)詞頻相比核心詞的詞頻的減小比例大于預(yù)設(shè)減少經(jīng)驗(yàn)值、且所述共現(xiàn)詞頻小于預(yù)設(shè)結(jié)果共現(xiàn)數(shù)值的情況下,確定本次遍歷預(yù)選詞組為預(yù)選核心詞組;其中,M不小于N,且M和N均為正整數(shù);
將所述核心詞與所述預(yù)選核心詞組組成降維后的核心搜索詞組。
通過采用上述技術(shù)方案,本申請通過對搜索文本進(jìn)行分詞,得到多個目標(biāo)詞語,然后基于查找詞頻文件確定一個核心詞,以及基于查找共現(xiàn)詞頻文件確定剩余目標(biāo)詞語與核心詞的共現(xiàn)詞頻,從而確定出降維后的核心詞組,實(shí)現(xiàn)對搜索文本的降維,能夠在對搜索文本降維后得到關(guān)鍵信息,以及通過共現(xiàn)詞頻文件篩選掉搜索文本中的錯誤信息。
可選的,所述查找詞頻文件,將詞頻最小的1個目標(biāo)詞語確定為核心詞的過程中,包括:
查找詞頻文件,將目標(biāo)詞語按照詞頻由小到大依次排序,得到目標(biāo)詞語集合;
將目標(biāo)詞語集合中第一個目標(biāo)詞語確定為核心詞。
通過采用上述技術(shù)方案,通過查找詞頻文件,將目標(biāo)詞語按照詞頻由小到達(dá)依次排序,得到目標(biāo)詞語集合,將第一個目標(biāo)詞語確定為核心詞,在確定核心詞的同時(shí),對目標(biāo)詞語進(jìn)行排序,從而使得后續(xù)遍歷剩余目標(biāo)詞語時(shí),能夠先遍歷到詞頻較小的目標(biāo)詞語。
可選的,所述在確定所述共現(xiàn)詞頻大于0、所述共現(xiàn)詞頻相比核心詞的詞頻的減小比例大于預(yù)設(shè)減少經(jīng)驗(yàn)值、且所述共現(xiàn)詞頻小于預(yù)設(shè)結(jié)果共現(xiàn)數(shù)值的情況下,確定本次遍歷預(yù)選詞組為預(yù)選核心詞組的過程中,包括:
在確定所述共現(xiàn)詞頻大于0、所述共現(xiàn)詞頻相比核心詞的詞頻的減小比例大于預(yù)設(shè)減少經(jīng)驗(yàn)值、且所述共現(xiàn)詞頻小于預(yù)設(shè)結(jié)果共現(xiàn)數(shù)值的情況下,將本次遍歷預(yù)選詞組加入預(yù)選詞組集合;
在遍歷完剩余的M個目標(biāo)詞語后、且預(yù)選詞組集合中存在預(yù)選詞組的情況下,將預(yù)選詞組集合中與核心詞的共現(xiàn)頻率最小的預(yù)選詞組確定為預(yù)選核心詞組。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于企知道網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)企知道網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211711414.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





