[發(fā)明專(zhuān)利]關(guān)鍵詞和答案的確定方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201810399625.8 | 申請(qǐng)日: | 2018-04-28 |
| 公開(kāi)(公告)號(hào): | CN108681564B | 公開(kāi)(公告)日: | 2021-06-29 |
| 發(fā)明(設(shè)計(jì))人: | 梁仕強(qiáng) | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類(lèi)號(hào): | G06F16/332 | 分類(lèi)號(hào): | G06F16/332;G06F16/33 |
| 代理公司: | 中國(guó)貿(mào)促會(huì)專(zhuān)利商標(biāo)事務(wù)所有限公司 11038 | 代理人: | 王莉莉 |
| 地址: | 100195 北京市海淀區(qū)杏石口路6*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 關(guān)鍵詞 答案 確定 方法 裝置 計(jì)算機(jī) 可讀 存儲(chǔ) 介質(zhì) | ||
本公開(kāi)涉及一種關(guān)鍵詞的確定方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),涉及自然語(yǔ)言處理技術(shù)領(lǐng)域。該方法包括:將語(yǔ)料中的句子劃分為多個(gè)單詞;根據(jù)多個(gè)單詞建立第一詞列表,第一詞列表中包括各單詞及其在語(yǔ)料中的出現(xiàn)頻率,第一詞列表中的各單詞按照其出現(xiàn)頻率排序;根據(jù)劃分得到的單詞生成各合成詞,合成詞由N個(gè)單詞組成,N大于等于2;根據(jù)各合成詞建立第二詞列表,第二詞列表包括各合成詞及其在所述語(yǔ)料中的出現(xiàn)頻率,第二詞列表中的各合成詞按照其出現(xiàn)頻率排序;根據(jù)第一詞列表中各單詞的出現(xiàn)頻率和排序情況,以及第二詞列表中包含各單詞的合成詞的出現(xiàn)頻率和排序情況,確定各關(guān)鍵詞。本公開(kāi)的技術(shù)方案能夠提高用戶(hù)體驗(yàn)。
技術(shù)領(lǐng)域
本公開(kāi)涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,特別涉及一種關(guān)鍵詞的確定方法、關(guān)鍵詞的裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
如今新一輪的人工智能和機(jī)器學(xué)習(xí)浪潮席卷全球,對(duì)各行各業(yè)都產(chǎn)生了深遠(yuǎn)的影響。基于人工智能,大數(shù)據(jù)和深度學(xué)習(xí)基礎(chǔ)上發(fā)展起來(lái)自然語(yǔ)言理解以及自然語(yǔ)言生成技術(shù)在近年中更是得到了長(zhǎng)足的發(fā)展。
隨著信息的碎片化,服務(wù)的多元化,以及人力成本越來(lái)越高,使用基于自然語(yǔ)言理解和自然語(yǔ)言生成的機(jī)器人客服逐漸取代人工客服,對(duì)顧客進(jìn)行全流程接待并解決顧客的問(wèn)題是大勢(shì)所趨。
在相關(guān)技術(shù)中,機(jī)器人將顧客的問(wèn)句和訓(xùn)練集中的所有句子進(jìn)行對(duì)比,找出問(wèn)句的最相近句子,然后以最接近句子的意圖作為問(wèn)句的意圖。或者將問(wèn)句與事先準(zhǔn)備的問(wèn)答對(duì)中的問(wèn)題進(jìn)行比較,找出最相似的問(wèn)題,然后用該問(wèn)題的答案作為應(yīng)答回復(fù)給顧客。
發(fā)明內(nèi)容
本公開(kāi)的發(fā)明人發(fā)現(xiàn)上述相關(guān)技術(shù)中存在如下問(wèn)題:答案的生成需要依靠事先準(zhǔn)備的標(biāo)注語(yǔ)料或者問(wèn)答對(duì)作為機(jī)器人學(xué)習(xí)的先驗(yàn)知識(shí),導(dǎo)致在遇到未知問(wèn)題時(shí)無(wú)法準(zhǔn)確理解問(wèn)題的意圖,無(wú)法作出合適的應(yīng)答,從而影響用戶(hù)體驗(yàn)。鑒于此,本公開(kāi)提出了一種能夠準(zhǔn)確理解語(yǔ)料意圖的關(guān)鍵詞和答案的確定技術(shù)方案用于生成合適的應(yīng)答,從而提升用戶(hù)體驗(yàn)。
根據(jù)本公開(kāi)的一些實(shí)施例,提供了一種關(guān)鍵詞的確定方法,包括:將語(yǔ)料中的句子劃分為多個(gè)單詞;根據(jù)所述多個(gè)單詞建立第一詞列表,所述第一詞列表中包括各單詞及其在所述語(yǔ)料中的出現(xiàn)頻率,所述第一詞列表中的各單詞按照其出現(xiàn)頻率排序;根據(jù)劃分得到的單詞生成各合成詞,所述合成詞由N個(gè)單詞組成,N大于等于2;根據(jù)所述各合成詞建立第二詞列表,所述第二詞列表包括所述各合成詞及其在所述語(yǔ)料中的出現(xiàn)頻率,所述第二詞列表中的各合成詞按照其出現(xiàn)頻率排序;根據(jù)所述第一詞列表中各單詞的出現(xiàn)頻率和排序情況,以及所述第二詞列表中包含所述各單詞的合成詞的出現(xiàn)頻率和排序情況,確定各關(guān)鍵詞。
可選地,將所述關(guān)鍵詞作為候選詞,并根據(jù)所述候選詞建立候選詞列表,所述候選詞列表中包含所述候選詞及其在所述語(yǔ)料中的出現(xiàn)頻率,所述候選詞最多由M個(gè)單詞組成,M大于等于1,所述候選詞列表中的各候選詞按照其出現(xiàn)頻率排序;根據(jù)所述劃分得到的單詞重新生成合成詞,所述合成詞由L個(gè)單詞組成,L大于M;根據(jù)所述合成詞建立第三詞列表,所述第三詞列表包括所述各合成詞及其在所述語(yǔ)料中的出現(xiàn)頻率,所述第三詞列表中的各合成詞按照其出現(xiàn)頻率排序;根據(jù)所述候選詞列表中各候選詞的出現(xiàn)頻率和排序情況,以及所述第三詞列表中包含所述各候選詞的合成詞的出現(xiàn)頻率和排序情況,確定各關(guān)鍵詞;重復(fù)執(zhí)行上述步驟一次或多次。
可選地,判斷所述第二詞列表中合成詞的出現(xiàn)頻率與所述第一詞列表中被所述合成詞包含的單詞的出現(xiàn)頻率的比值是否大于閾值;在所述比值大于所述閾值的情況下,將所述合成詞確定為關(guān)鍵詞;在所述比值小于或等于所述閾值的情況下,判斷所述合成詞在所述第二列表中的排序是否高于所述單詞在所述第一次列表中的排序,所述第一次列表中的單詞按照單詞的出現(xiàn)頻率從高到低排序,所述第二次列表中的合成詞按照合成詞的出現(xiàn)頻率從高到低排序,在是的情況下,將所述合成詞確定為所述關(guān)鍵詞,在否的情況下,將所述單詞確定為所述關(guān)鍵詞。
根據(jù)本公開(kāi)的另一些實(shí)施例,提供了一種答案的確定方法,包括:上述任一個(gè)實(shí)施例中的關(guān)鍵詞的確定方法;和根據(jù)接收到的問(wèn)題中包含的所述關(guān)鍵詞,在數(shù)據(jù)庫(kù)中查找相應(yīng)文檔以生成所述問(wèn)題的一個(gè)或多個(gè)答案。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810399625.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測(cè)方法和裝置
- 關(guān)鍵詞排名的檢測(cè)方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲(chǔ)介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動(dòng)化否定關(guān)鍵詞方法及裝置
- 一種長(zhǎng)尾關(guān)鍵詞識(shí)別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備
- 用于智能問(wèn)答系統(tǒng)的答案排序方法及裝置
- 一種基于串謀檢測(cè)的眾包結(jié)果匯聚方法及裝置
- 一種面向問(wèn)答領(lǐng)域動(dòng)態(tài)計(jì)算問(wèn)句與答案相似性的方法
- 一種基于數(shù)據(jù)處理的眾包任務(wù)答案確定方法及相關(guān)設(shè)備
- 一種手寫(xiě)答案識(shí)別批改方法及裝置
- 一種答案批改方法及裝置
- 一種面向閱讀理解問(wèn)答的多角度答案驗(yàn)證方法
- 一種訓(xùn)練文本關(guān)鍵內(nèi)容提取模型的方法和系統(tǒng)
- 填空題標(biāo)準(zhǔn)答案確定方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 互動(dòng)游戲書(shū)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





