[發(fā)明專利]關(guān)鍵詞提取方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202011297172.1 | 申請(qǐng)日: | 2020-11-17 |
| 公開(kāi)(公告)號(hào): | CN112650830B | 公開(kāi)(公告)日: | 2021-11-26 |
| 發(fā)明(設(shè)計(jì))人: | 鄭翔;楊晶生;陳可蓉;劉敬暉;宗博文 | 申請(qǐng)(專利權(quán))人: | 北京字跳網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/35;G06F40/216;G06F40/284;G10L15/183 |
| 代理公司: | 北京植德律師事務(wù)所 11780 | 代理人: | 唐華東 |
| 地址: | 100190 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 關(guān)鍵詞 提取 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
本公開(kāi)提供一種關(guān)鍵詞提取方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。該方法的一具體實(shí)施方式包括:對(duì)目標(biāo)文本對(duì)應(yīng)的候選關(guān)鍵詞集合中各候選關(guān)鍵詞進(jìn)行向量表示得到對(duì)應(yīng)的向量;對(duì)各候選關(guān)鍵詞對(duì)應(yīng)的向量進(jìn)行異常點(diǎn)檢測(cè),得到異常點(diǎn)向量集合;刪除候選關(guān)鍵詞集合中與各異常點(diǎn)向量對(duì)應(yīng)的關(guān)鍵詞;將候選關(guān)鍵詞集合確定為與目標(biāo)文本對(duì)應(yīng)的關(guān)鍵詞集合。該實(shí)施方式提高了關(guān)鍵詞提取的準(zhǔn)確度。
技術(shù)領(lǐng)域
本公開(kāi)的實(shí)施例涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,具體涉及關(guān)鍵詞提取方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著文本信息爆發(fā)式地增長(zhǎng),為了方便人們快速了解某篇文本內(nèi)容,一種重要方式是為人們提取能夠確切反映文本內(nèi)容的關(guān)鍵詞。
關(guān)鍵詞提取通常可以分為兩種方法:有監(jiān)督方法和無(wú)監(jiān)督方法。其中,有監(jiān)督方法需要大量的人工標(biāo)注數(shù)據(jù),成本較高;而目前的無(wú)監(jiān)督方法提取出來(lái)的關(guān)鍵詞往往包含很多“雜質(zhì)”,即其中存在與文本內(nèi)容無(wú)關(guān)、或相關(guān)性較低的非關(guān)鍵詞,因此提取出來(lái)的關(guān)鍵詞準(zhǔn)確度較低。
發(fā)明內(nèi)容
本公開(kāi)的實(shí)施例提出了關(guān)鍵詞提取方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。
第一方面,本公開(kāi)的實(shí)施例提供了一種關(guān)鍵詞提取方法,該方法包括:對(duì)目標(biāo)文本對(duì)應(yīng)的候選關(guān)鍵詞集合中各候選關(guān)鍵詞進(jìn)行向量表示得到對(duì)應(yīng)的向量;對(duì)各上述候選關(guān)鍵詞對(duì)應(yīng)的向量進(jìn)行異常點(diǎn)檢測(cè),得到異常點(diǎn)向量集合;刪除上述候選關(guān)鍵詞集合中與各上述異常點(diǎn)向量對(duì)應(yīng)的關(guān)鍵詞;將上述候選關(guān)鍵詞集合確定為與上述目標(biāo)文本對(duì)應(yīng)的關(guān)鍵詞集合。
在一些可選的實(shí)施方式中,上述目標(biāo)文本對(duì)應(yīng)的候選關(guān)鍵詞通過(guò)如下方式生成:對(duì)上述目標(biāo)文本進(jìn)行關(guān)鍵詞提取,得到對(duì)應(yīng)的候選關(guān)鍵詞集合。
在一些可選的實(shí)施方式中,上述目標(biāo)文本通過(guò)如下方式生成:獲取待識(shí)別語(yǔ)音數(shù)據(jù);對(duì)上述待識(shí)別語(yǔ)音數(shù)據(jù)進(jìn)行自動(dòng)語(yǔ)音識(shí)別得到上述目標(biāo)文本。
在一些可選的實(shí)施方式中,上述待識(shí)別語(yǔ)音數(shù)據(jù)為目標(biāo)音視頻會(huì)議的音頻數(shù)據(jù)。
在一些可選的實(shí)施方式中,上述對(duì)上述目標(biāo)文本進(jìn)行關(guān)鍵詞提取,得到對(duì)應(yīng)的候選關(guān)鍵詞集合,包括:基于無(wú)監(jiān)督關(guān)鍵詞提取方法對(duì)上述目標(biāo)文本進(jìn)行關(guān)鍵詞提取,得到對(duì)應(yīng)的候選關(guān)鍵詞集合。
在一些可選的實(shí)施方式中,上述無(wú)監(jiān)督關(guān)鍵詞提取方法為詞頻-逆文本頻率指數(shù)方法、Textrank方法、文檔主題生成模型中的任意一種。
在一些可選的實(shí)施方式中,上述對(duì)各上述候選關(guān)鍵詞對(duì)應(yīng)的向量進(jìn)行異常點(diǎn)檢測(cè),得到異常點(diǎn)向量集合,包括:利用局部異常因子算法、孤立森林算法或者支持向量機(jī)異常檢測(cè)法對(duì)各上述候選關(guān)鍵詞對(duì)應(yīng)的向量進(jìn)行異常點(diǎn)檢測(cè),得到異常點(diǎn)向量集合。
在一些可選的實(shí)施方式中,上述對(duì)目標(biāo)文本對(duì)應(yīng)的候選關(guān)鍵詞集合中各候選關(guān)鍵詞進(jìn)行向量表示得到對(duì)應(yīng)的向量,包括:分別將上述候選關(guān)鍵詞集合中各候選關(guān)鍵詞輸入詞向量化模型,得到對(duì)應(yīng)的向量。
第二方面,本公開(kāi)的實(shí)施例提供了一種關(guān)鍵詞提取裝置,該裝置包括:向量表示單元,被配置成對(duì)目標(biāo)文本對(duì)應(yīng)的候選關(guān)鍵詞集合中各候選關(guān)鍵詞進(jìn)行向量表示得到對(duì)應(yīng)的向量;異常檢測(cè)單元,被配置成對(duì)各上述候選關(guān)鍵詞對(duì)應(yīng)的向量進(jìn)行異常點(diǎn)檢測(cè),得到異常點(diǎn)向量集合;刪除單元,被配置成刪除上述候選關(guān)鍵詞集合中與各上述異常點(diǎn)向量對(duì)應(yīng)的關(guān)鍵詞;確定單元,被配置成將上述候選關(guān)鍵詞集合確定為與上述目標(biāo)文本對(duì)應(yīng)的關(guān)鍵詞集合。
在一些可選的實(shí)施方式中,上述目標(biāo)文本對(duì)應(yīng)的候選關(guān)鍵詞通過(guò)如下方式生成:對(duì)上述目標(biāo)文本進(jìn)行關(guān)鍵詞提取,得到對(duì)應(yīng)的候選關(guān)鍵詞集合。
在一些可選的實(shí)施方式中,上述目標(biāo)文本通過(guò)如下方式生成:獲取待識(shí)別語(yǔ)音數(shù)據(jù);對(duì)上述待識(shí)別語(yǔ)音數(shù)據(jù)進(jìn)行自動(dòng)語(yǔ)音識(shí)別得到上述目標(biāo)文本。
在一些可選的實(shí)施方式中,上述待識(shí)別語(yǔ)音數(shù)據(jù)為目標(biāo)音視頻會(huì)議的音頻數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京字跳網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京字跳網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011297172.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測(cè)方法和裝置
- 關(guān)鍵詞排名的檢測(cè)方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲(chǔ)介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動(dòng)化否定關(guān)鍵詞方法及裝置
- 一種長(zhǎng)尾關(guān)鍵詞識(shí)別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





