[發(fā)明專利]關(guān)鍵詞的關(guān)聯(lián)關(guān)鍵詞的獲取方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201410779363.X | 申請(qǐng)日: | 2014-12-15 |
| 公開(kāi)(公告)號(hào): | CN104408191B | 公開(kāi)(公告)日: | 2017-11-21 |
| 發(fā)明(設(shè)計(jì))人: | 劉粉香 | 申請(qǐng)(專利權(quán))人: | 北京國(guó)雙科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司11240 | 代理人: | 吳貴明,張永明 |
| 地址: | 100086 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 關(guān)鍵詞 關(guān)聯(lián) 獲取 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種關(guān)鍵詞的關(guān)聯(lián)關(guān)鍵詞的獲取方法和裝置。
背景技術(shù)
對(duì)于人們關(guān)注的主題,如果給定一個(gè)關(guān)鍵詞,需要解決的問(wèn)題是如何快速有效的找到文本中與給定關(guān)鍵詞的關(guān)聯(lián)性最強(qiáng)的關(guān)鍵詞,如,給定關(guān)鍵詞為“天安門”,由于經(jīng)常與“天安門”同時(shí)出現(xiàn)的詞語(yǔ)包括“天安門城樓”、“故宮”或者“天安門廣場(chǎng)”等,那么與給定關(guān)鍵詞“天安門”相關(guān)的關(guān)鍵詞就包括“天安門城樓”、“故宮”以及“天安門廣場(chǎng)”。為解決上述的問(wèn)題,現(xiàn)有的解決方案主要有兩種:一種是基于給定關(guān)鍵詞的文本匹配相似度查找關(guān)聯(lián)關(guān)鍵詞;一種是基于給定關(guān)鍵詞在語(yǔ)句中的共現(xiàn)概率去計(jì)算或查找關(guān)聯(lián)關(guān)鍵詞。
具體地,通過(guò)文本匹配相似度查找關(guān)聯(lián)關(guān)鍵詞,即在文本中查找與給定關(guān)鍵詞所包含的文字相似的關(guān)鍵詞,如,若給定關(guān)鍵詞為“天安門”,那么通過(guò)文本匹配相似度的方法查找關(guān)聯(lián)關(guān)鍵詞,將認(rèn)為“地安門”與“天安門”極為相似,即認(rèn)為“地安門”為給定關(guān)鍵詞“天安門”的一個(gè)關(guān)聯(lián)關(guān)鍵詞,但是實(shí)際上,通常與“天安門”同時(shí)出現(xiàn)的詞語(yǔ)是“天安門城樓”、“故宮”或者“天安門廣場(chǎng)”等,而不是“地安門”。
進(jìn)一步地,通過(guò)共現(xiàn)概率計(jì)算或查找關(guān)聯(lián)關(guān)鍵詞,即將文本的所有語(yǔ)句劃分為最小關(guān)鍵詞(即切分為最小詞組或單字),計(jì)算任意兩個(gè)最小關(guān)鍵詞在每個(gè)語(yǔ)句中共同出現(xiàn)的概率,得到這兩個(gè)最小關(guān)鍵詞的共現(xiàn)概率。根據(jù)預(yù)先設(shè)定的概率閾值,共現(xiàn)概率大于概率閾值的兩個(gè)詞語(yǔ)即為關(guān)聯(lián)性詞語(yǔ),共現(xiàn)概率越高的兩個(gè)詞語(yǔ)的關(guān)聯(lián)性越高。
由于現(xiàn)有的解決方案運(yùn)用遍歷法查找關(guān)鍵詞,在計(jì)算和存儲(chǔ)數(shù)據(jù)時(shí)耗費(fèi)的計(jì)算機(jī)資源都比較大,導(dǎo)致了對(duì)于大量的自然語(yǔ)言的處理速度非常慢。
針對(duì)相關(guān)技術(shù)中獲取關(guān)鍵詞的關(guān)聯(lián)關(guān)鍵詞的速度慢的問(wèn)題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種關(guān)鍵詞的關(guān)聯(lián)關(guān)鍵詞的獲取方法和裝置,以解決相關(guān)技術(shù)中獲取關(guān)鍵詞的關(guān)聯(lián)關(guān)鍵詞的速度慢的問(wèn)題。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種關(guān)鍵詞的關(guān)聯(lián)關(guān)鍵詞的獲取方法。
根據(jù)本發(fā)明的獲取方法包括:接收用于獲取關(guān)聯(lián)關(guān)鍵詞的獲取請(qǐng)求,其中,獲取請(qǐng)求中攜帶有目標(biāo)關(guān)鍵詞和包含目標(biāo)關(guān)鍵詞的文本信息;對(duì)文本信息進(jìn)行分詞處理,得到包括多個(gè)關(guān)鍵詞的詞庫(kù),其中,關(guān)鍵詞包括目標(biāo)關(guān)鍵詞;通過(guò)機(jī)器學(xué)習(xí)方法獲取詞庫(kù)中各個(gè)關(guān)鍵詞對(duì)應(yīng)文本信息的多維數(shù)組;基于各個(gè)關(guān)鍵詞對(duì)應(yīng)的多維數(shù)組對(duì)多個(gè)關(guān)鍵詞進(jìn)行聚類分析,得到多個(gè)詞語(yǔ)集合;確定包含目標(biāo)關(guān)鍵詞的詞語(yǔ)集合;計(jì)算目標(biāo)關(guān)鍵詞與第二關(guān)鍵詞之間的距離,其中,第二關(guān)鍵詞為包含目標(biāo)關(guān)鍵詞的詞語(yǔ)集合中除目標(biāo)關(guān)鍵詞之外的關(guān)鍵詞;將符合預(yù)設(shè)條件的距離對(duì)應(yīng)的第二關(guān)鍵詞作為關(guān)聯(lián)關(guān)鍵詞。
進(jìn)一步地,基于各個(gè)關(guān)鍵詞對(duì)應(yīng)的多維數(shù)組對(duì)多個(gè)關(guān)鍵詞進(jìn)行聚類分析,得到多個(gè)詞語(yǔ)集合包括:使用各個(gè)多維數(shù)組對(duì)多個(gè)關(guān)鍵詞進(jìn)行聚類,得到多個(gè)詞語(yǔ)集合,其中,多維數(shù)組中的一維數(shù)據(jù)用于描述關(guān)鍵詞的一個(gè)屬性信息。
進(jìn)一步地,計(jì)算目標(biāo)關(guān)鍵詞與第二關(guān)鍵詞之間的距離包括:計(jì)算目標(biāo)關(guān)鍵詞的第一多維數(shù)組與第二關(guān)鍵詞的第二多維數(shù)組之間的歐式距離;將符合預(yù)設(shè)條件的距離對(duì)應(yīng)的第二關(guān)鍵詞作為關(guān)聯(lián)關(guān)鍵詞包括:對(duì)計(jì)算得到的歐式距離進(jìn)行倒序排序,得到距離排序表;將距離排序表中排序前N位的歐式距離的第二關(guān)鍵詞作為關(guān)聯(lián)關(guān)鍵詞,其中,N為自然數(shù)。
進(jìn)一步地,計(jì)算目標(biāo)關(guān)鍵詞與第二關(guān)鍵詞之間的距離包括:計(jì)算目標(biāo)關(guān)鍵詞的第一多維數(shù)組與第二關(guān)鍵詞的第二多維數(shù)組之間的歐式距離;將符合預(yù)設(shè)條件的距離對(duì)應(yīng)的第二關(guān)鍵詞作為關(guān)聯(lián)關(guān)鍵詞包括:將不大于預(yù)設(shè)閾值的歐式距離的第二關(guān)鍵詞作為關(guān)聯(lián)關(guān)鍵詞。
進(jìn)一步地,對(duì)文本信息進(jìn)行分詞處理,得到包括多個(gè)關(guān)鍵詞的詞庫(kù)包括:按照預(yù)設(shè)詞匯組合將文本信息拆分為多個(gè)關(guān)鍵詞;保存多個(gè)關(guān)鍵詞得到詞庫(kù)。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種關(guān)鍵詞的關(guān)聯(lián)關(guān)鍵詞的獲取裝置。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京國(guó)雙科技有限公司,未經(jīng)北京國(guó)雙科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410779363.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測(cè)方法和裝置
- 關(guān)鍵詞排名的檢測(cè)方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲(chǔ)介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動(dòng)化否定關(guān)鍵詞方法及裝置
- 一種長(zhǎng)尾關(guān)鍵詞識(shí)別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報(bào)文關(guān)聯(lián)方法、報(bào)文關(guān)聯(lián)裝置及報(bào)文關(guān)聯(lián)系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





