[發(fā)明專利]選取搜索意圖詞組的方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010544790.5 | 申請(qǐng)日: | 2020-06-15 |
| 公開(公告)號(hào): | CN111723291A | 公開(公告)日: | 2020-09-29 |
| 發(fā)明(設(shè)計(jì))人: | 蘇孔明;陳華榮;亓超;馬宇馳 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535;G06F16/951 |
| 代理公司: | 北京市立方律師事務(wù)所 11330 | 代理人: | 張?bào)銓?/td> |
| 地址: | 518057 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 選取 搜索 意圖 詞組 方法 裝置 | ||
本申請(qǐng)實(shí)施例提供了一種選取搜索意圖詞組的方法和裝置,涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域。該方法包括:基于多個(gè)已知意圖詞組,從預(yù)設(shè)置文本庫(kù)的樣本文本中確定多個(gè)候選意圖詞組;多個(gè)候選意圖詞組包括多個(gè)已知意圖詞組中的各個(gè)詞;多個(gè)候選意圖詞組中詞的個(gè)數(shù)多于多個(gè)已知意圖詞組中詞的個(gè)數(shù);任一候選意圖詞組中相鄰的任意兩個(gè)詞在提取任一候選意圖詞組的樣本文本中是相鄰的位置關(guān)系;計(jì)算各個(gè)候選意圖詞組的參數(shù)信息;當(dāng)參數(shù)信息符合條件時(shí),選取符合條件的參數(shù)信息對(duì)應(yīng)的候選意圖詞組作為搜索意圖詞組。本申請(qǐng)實(shí)施例實(shí)現(xiàn)了提高搜索意圖詞組的準(zhǔn)確度,可以精準(zhǔn)的向用戶提供所需信息內(nèi)容的問題。
技術(shù)領(lǐng)域
本申請(qǐng)涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,具體而言,本申請(qǐng)涉及一種選取搜 索意圖詞組的方法和裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)的快速發(fā)展,人們的日常生活越來越依賴網(wǎng)絡(luò),例如,在 網(wǎng)絡(luò)上查找資料、學(xué)術(shù)論文、關(guān)心的新聞內(nèi)容等等。通常用戶通過輸入自 定義的關(guān)鍵字,網(wǎng)絡(luò)會(huì)羅列出與該關(guān)鍵字相關(guān)的所有信息內(nèi)容,而羅列的 方式可通過對(duì)關(guān)鍵字進(jìn)行分析確定出每個(gè)信息內(nèi)容與關(guān)鍵字的關(guān)聯(lián)程度, 關(guān)聯(lián)程度高的被認(rèn)為是用戶最想得到的信息內(nèi)容,因此會(huì)將關(guān)聯(lián)程度高的 信息內(nèi)容展現(xiàn)在頁(yè)面的主要位置中。這種方式可以帶給用戶很好的體驗(yàn),使得用戶以最快的速度查找到自己所需要的東西。
在這一過程中如何根據(jù)關(guān)鍵字快速且準(zhǔn)確的尋找出匹配的信息內(nèi)容 是重點(diǎn)。通常情況線下通過創(chuàng)建搜索意圖詞組實(shí)現(xiàn)與關(guān)鍵字匹配的操作, 當(dāng)用戶輸入的關(guān)鍵字剛好有與其相匹配的意圖詞組,則將該意圖詞組相對(duì) 應(yīng)的信息內(nèi)容,例如文章、ppt等反饋給用戶。可見該過程中如何選取出 準(zhǔn)確的搜索意圖詞組是十分關(guān)鍵的內(nèi)容。
現(xiàn)有方法中,搜索意圖詞組的選取多是依賴人工經(jīng)驗(yàn)確定出來,這樣 會(huì)導(dǎo)致該搜索意圖詞組不夠準(zhǔn)確,無法及時(shí)、準(zhǔn)確的向用戶提供所需信息 內(nèi)容。
發(fā)明內(nèi)容
本申請(qǐng)?zhí)峁┝艘环N選取搜索意圖詞組的方法和裝置,可以解決由于搜 索意圖詞組不夠準(zhǔn)確,而導(dǎo)致無法精準(zhǔn)的向用戶提供所需信息內(nèi)容的問 題。所述技術(shù)方案如下:
第一方面,提供了一種選取搜索意圖詞組的方法,該方法包括:
基于多個(gè)已知意圖詞組,從預(yù)設(shè)置文本庫(kù)的樣本文本中確定多個(gè)候選 意圖詞組;多個(gè)候選意圖詞組包括多個(gè)已知意圖詞組中的各個(gè)詞;多個(gè)候 選意圖詞組中詞的個(gè)數(shù)多于多個(gè)已知意圖詞組中詞的個(gè)數(shù);任一候選意圖 詞組中相鄰的任意兩個(gè)詞在提取任一候選意圖詞組的樣本文本中是相鄰 的位置關(guān)系;
計(jì)算各個(gè)候選意圖詞組的參數(shù)信息;
當(dāng)參數(shù)信息符合條件時(shí),選取符合條件的參數(shù)信息對(duì)應(yīng)的候選意圖詞 組作為搜索意圖詞組。
在一個(gè)可能實(shí)現(xiàn)的方式中,基于多個(gè)已知意圖詞組,從預(yù)設(shè)置文本庫(kù) 的樣本文本中確定多個(gè)候選意圖詞組,包括:
在預(yù)設(shè)置文本庫(kù)的樣本文本中,查找到多個(gè)已知意圖詞組所在樣本文 本的文本位置;
根據(jù)每一已知意圖詞組所在樣本文本的文本位置,從該樣本文本中獲 取相應(yīng)的候選意圖詞組,候選意圖詞組中包括相應(yīng)已知意圖詞組中的任一 個(gè)詞,且候選意圖詞組中包括詞的個(gè)數(shù)滿足預(yù)定取詞數(shù)。
在一個(gè)可能實(shí)現(xiàn)的方式中,計(jì)算任一候選意圖詞組的參數(shù)信息,包括:
確定任一候選意圖詞組中每一個(gè)詞的頁(yè)面出現(xiàn)頻率;
根據(jù)頁(yè)面出現(xiàn)頻率,計(jì)算確定任一目標(biāo)意圖詞組的頁(yè)面出現(xiàn)頻率乘 積;
計(jì)算確定任一候選意圖詞組在所有候選意圖詞組中的出現(xiàn)頻率;
將頁(yè)面出現(xiàn)頻率乘積與出現(xiàn)頻率的比值作為任一候選意圖詞組的參 數(shù)信息。
在一個(gè)可能實(shí)現(xiàn)的方式中,計(jì)算任一候選意圖詞組的參數(shù)信息,還包 括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010544790.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 用于意圖挖掘的方法和設(shè)備
- 意圖估計(jì)裝置以及意圖估計(jì)方法
- 意圖識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 意圖確認(rèn)方法及裝置
- 搜索意圖識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 語句多意圖識(shí)別方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 對(duì)話系統(tǒng)中意圖沖突的解決方法、系統(tǒng)及裝置
- 信息通信網(wǎng)絡(luò)的意圖轉(zhuǎn)譯方法、系統(tǒng)、介質(zhì)及交互接口
- 語音對(duì)話的意圖識(shí)別方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)
- 意圖識(shí)別方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)





