[發(fā)明專利]一種基于共現(xiàn)詞頻的核心搜索詞組確定方法在審
| 申請(qǐng)?zhí)枺?/td> | 202211711414.6 | 申請(qǐng)日: | 2022-12-29 |
| 公開(公告)號(hào): | CN115952332A | 公開(公告)日: | 2023-04-11 |
| 發(fā)明(設(shè)計(jì))人: | 帥丹 | 申請(qǐng)(專利權(quán))人: | 企知道網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號(hào): | G06F16/9032 | 分類號(hào): | G06F16/9032;G06F40/216 |
| 代理公司: | 武漢維興專利代理有限公司 42298 | 代理人: | 彭聰 |
| 地址: | 518000 廣東省深圳市南山區(qū)西麗*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 詞頻 核心 搜索 詞組 確定 方法 | ||
1.一種基于共現(xiàn)詞頻的核心搜索詞組確定方法,其特征在于,包括如下步驟:
對(duì)用戶輸入的搜索文本進(jìn)行分詞,得到M+1個(gè)目標(biāo)詞語;
查找詞頻文件,將詞頻最小的1個(gè)目標(biāo)詞語確定為核心詞;
對(duì)剩余的M個(gè)目標(biāo)詞語按照N由小到大的順序依次遍歷:
從剩余的M個(gè)目標(biāo)詞語中選擇N個(gè)目標(biāo)詞語作為本次遍歷預(yù)選詞組,確定核心詞與本次遍歷預(yù)選詞組在共現(xiàn)詞頻文件中的共現(xiàn)詞頻;
在確定所述共現(xiàn)詞頻大于0、所述共現(xiàn)詞頻相比核心詞的詞頻的減小比例大于預(yù)設(shè)減少經(jīng)驗(yàn)值、且所述共現(xiàn)詞頻小于預(yù)設(shè)結(jié)果共現(xiàn)數(shù)值的情況下,確定本次遍歷預(yù)選詞組為預(yù)選核心詞組;其中,M不小于N,且M和N均為正整數(shù);
將所述核心詞與所述預(yù)選核心詞組組成降維后的核心搜索詞組。
2.根據(jù)權(quán)利要求1所述的基于共現(xiàn)詞頻的核心搜索詞組確定方法,其特征在于,所述查找詞頻文件,將詞頻最小的1個(gè)目標(biāo)詞語確定為核心詞的過程中,包括:
查找詞頻文件,將目標(biāo)詞語按照詞頻由小到大依次排序,得到目標(biāo)詞語集合;
將目標(biāo)詞語集合中第一個(gè)目標(biāo)詞語確定為核心詞。
3.根據(jù)權(quán)利要求1所述的基于共現(xiàn)詞頻的核心搜索詞組確定方法,其特征在于,所述在確定所述共現(xiàn)詞頻大于0、所述共現(xiàn)詞頻相比核心詞的詞頻的減小比例大于預(yù)設(shè)減少經(jīng)驗(yàn)值、且所述共現(xiàn)詞頻小于預(yù)設(shè)結(jié)果共現(xiàn)數(shù)值的情況下,確定本次遍歷預(yù)選詞組為預(yù)選核心詞組的過程中,包括:
在確定所述共現(xiàn)詞頻大于0、所述共現(xiàn)詞頻相比核心詞的詞頻的減小比例大于預(yù)設(shè)減少經(jīng)驗(yàn)值、且所述共現(xiàn)詞頻小于預(yù)設(shè)結(jié)果共現(xiàn)數(shù)值的情況下,將本次遍歷預(yù)選詞組加入預(yù)選詞組集合;
在遍歷完剩余的M個(gè)目標(biāo)詞語后、且預(yù)選詞組集合中存在預(yù)選詞組的情況下,將預(yù)選詞組集合中與核心詞的共現(xiàn)頻率最小的預(yù)選詞組確定為預(yù)選核心詞組。
4.根據(jù)權(quán)利要求1所述的基于共現(xiàn)詞頻的核心搜索詞組確定方法,其特征在于:所述對(duì)剩余的M個(gè)目標(biāo)詞語按照N由小到大的順序依次遍歷的過程中,N的初始取值為1。
5.根據(jù)權(quán)利要求1所述的基于共現(xiàn)詞頻的核心搜索詞組確定方法,其特征在于,在所述對(duì)用戶輸入的搜索文本進(jìn)行分詞,得到M+1個(gè)目標(biāo)詞語之前,還包括如下步驟:
獲取預(yù)先統(tǒng)計(jì)好的詞頻文件和共現(xiàn)詞頻文件;
將詞頻文件和共現(xiàn)詞頻文件加載到服務(wù)器的內(nèi)存中。
6.根據(jù)權(quán)利要求5所述的基于共現(xiàn)詞頻的核心搜索詞組確定方法,其特征在于,所述詞頻文件的建立過程包括如下步驟:
獲取垂直搜索領(lǐng)域的數(shù)據(jù)庫中全部文本;
將文本進(jìn)行分詞,并去除停用詞,得到多個(gè)分詞詞語;
統(tǒng)計(jì)各個(gè)分詞詞語的詞頻,建立詞頻文件。
7.根據(jù)權(quán)利要求6所述的基于共現(xiàn)詞頻的核心搜索詞組確定方法,其特征在于,所述共現(xiàn)詞頻文件的建立過程包括如下步驟:
對(duì)詞頻大于最大詞頻閾值和詞頻小于最小詞頻閾值的分詞詞語進(jìn)行過濾;
統(tǒng)計(jì)各個(gè)分詞詞語之間的共現(xiàn)詞頻,建立共現(xiàn)詞頻文件。
8.一種基于共現(xiàn)詞頻的核心搜索詞組確定系統(tǒng),應(yīng)用上述權(quán)利要求1-7中任一項(xiàng)所述的基于共現(xiàn)詞頻的核心搜索詞組確定方法,其特征在于,包括:
搜索文本獲取模塊,用于獲取用戶輸入的搜索文本。
9.目標(biāo)詞語獲取模塊,用于對(duì)搜索文本進(jìn)行分詞,得到多個(gè)目標(biāo)詞語。
10.詞頻獲取模塊,用于查找詞頻文件,得到各個(gè)目標(biāo)詞語對(duì)應(yīng)的詞頻。
11.核心詞確定模塊,用于將詞頻最小的目標(biāo)詞語確定為核心詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于企知道網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)企知道網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211711414.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





