[發(fā)明專利]文本關(guān)鍵詞提取方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202010736558.1 | 申請(qǐng)日: | 2020-07-28 |
| 公開(kāi)(公告)號(hào): | CN111985228B | 公開(kāi)(公告)日: | 2023-05-30 |
| 發(fā)明(設(shè)計(jì))人: | 毛宇;佘麗麗;夏海兵;魏志輝;林昊 | 申請(qǐng)(專利權(quán))人: | 招聯(lián)消費(fèi)金融有限公司 |
| 主分類號(hào): | G06F40/284 | 分類號(hào): | G06F40/284;G06F16/35 |
| 代理公司: | 華進(jìn)聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 李文淵 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 關(guān)鍵詞 提取 方法 裝置 計(jì)算機(jī) 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)涉及一種文本關(guān)鍵詞提取方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。所述方法包括:獲取待提取文本的候選關(guān)鍵詞;對(duì)候選關(guān)鍵詞進(jìn)行詞向量編碼,得到第一特征向量,以及,對(duì)候選關(guān)鍵詞進(jìn)行詞頻逆文本頻率編碼,得到第二特征向量;根據(jù)第一特征向量和第二特征向量,得到候選關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量;根據(jù)關(guān)鍵詞向量,在候選關(guān)鍵詞中選取待提取文本的目標(biāo)關(guān)鍵詞。采用本方法能夠結(jié)合文本上下文特征和全局特征進(jìn)行關(guān)鍵詞提取,提取出的目標(biāo)關(guān)鍵詞可以更準(zhǔn)確地反映文本意圖,關(guān)鍵詞提取準(zhǔn)確性較高。
技術(shù)領(lǐng)域
本申請(qǐng)涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,特別是涉及一種文本關(guān)鍵詞提取方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著自然語(yǔ)言處理技術(shù)的發(fā)展,出現(xiàn)了關(guān)鍵詞提取技術(shù),關(guān)鍵詞是能夠表達(dá)文本中心內(nèi)容的詞語(yǔ),準(zhǔn)確提取關(guān)鍵詞在計(jì)算機(jī)系統(tǒng)標(biāo)引論文內(nèi)容特征、信息檢索、文檔比較、摘要生成等應(yīng)用中具有重要作用。
傳統(tǒng)的關(guān)鍵詞提取技術(shù)采用詞嵌入向量(Word?Embedding)將文本轉(zhuǎn)換為數(shù)值矩陣,根據(jù)數(shù)值矩陣進(jìn)行關(guān)鍵詞提取。然而,采用詞嵌入向量的關(guān)鍵詞提取方法通過(guò)窗口滑動(dòng),利用淺層神經(jīng)網(wǎng)絡(luò)尋找相關(guān)詞概率,只能尋找到目標(biāo)詞附近的相近詞,難以提取出能夠反映文本真正意圖的關(guān)鍵詞,容易導(dǎo)致關(guān)鍵詞提取的準(zhǔn)確性較低。
因此,傳統(tǒng)的關(guān)鍵詞提取技術(shù)存在難以提取出反映文本意圖的關(guān)鍵詞,提取結(jié)果準(zhǔn)確性較低的問(wèn)題。
發(fā)明內(nèi)容
基于此,有必要針對(duì)上述技術(shù)問(wèn)題,提供一種能夠反映文本意圖、準(zhǔn)確性較高的文本關(guān)鍵詞提取方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
一種文本關(guān)鍵詞提取方法,所述方法包括:
獲取待提取文本的候選關(guān)鍵詞;
對(duì)所述候選關(guān)鍵詞進(jìn)行詞向量編碼,得到第一特征向量,以及,對(duì)所述候選關(guān)鍵詞進(jìn)行詞頻逆文本頻率編碼,得到第二特征向量;
根據(jù)所述第一特征向量和所述第二特征向量,得到所述候選關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量;
根據(jù)所述關(guān)鍵詞向量,在所述候選關(guān)鍵詞中選取所述待提取文本的目標(biāo)關(guān)鍵詞。
在其中一個(gè)實(shí)施例中,所述根據(jù)所述關(guān)鍵詞向量,在所述候選關(guān)鍵詞中選取所述待提取文本的目標(biāo)關(guān)鍵詞,包括:
根據(jù)所述關(guān)鍵詞向量對(duì)所述候選關(guān)鍵詞進(jìn)行聚類,得到關(guān)鍵詞聚類簇;
通過(guò)選取所述關(guān)鍵詞聚類簇內(nèi)的候選關(guān)鍵詞,得到簇內(nèi)關(guān)鍵詞;
通過(guò)對(duì)所述簇內(nèi)關(guān)鍵詞進(jìn)行排序,得到關(guān)鍵詞排序結(jié)果;
根據(jù)所述關(guān)鍵詞排序結(jié)果,得到所述待提取文本的目標(biāo)關(guān)鍵詞。
在其中一個(gè)實(shí)施例中,所述通過(guò)對(duì)所述簇內(nèi)關(guān)鍵詞進(jìn)行排序,得到關(guān)鍵詞排序結(jié)果,包括:
對(duì)所述簇內(nèi)關(guān)鍵詞進(jìn)行詞頻逆文本頻率編碼,得到簇內(nèi)特征向量;
根據(jù)所述簇內(nèi)特征向量,得到所述簇內(nèi)關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞分值;
根據(jù)所述關(guān)鍵詞分值對(duì)所述簇內(nèi)關(guān)鍵詞進(jìn)行排序,得到所述關(guān)鍵詞排序結(jié)果。
在其中一個(gè)實(shí)施例中,所述根據(jù)所述關(guān)鍵詞向量對(duì)所述候選關(guān)鍵詞進(jìn)行聚類,得到關(guān)鍵詞聚類簇,包括:
根據(jù)預(yù)設(shè)的聚類簇?cái)?shù),在所述關(guān)鍵詞向量中選取聚類中心初始向量;
根據(jù)所述關(guān)鍵詞向量與所述聚類中心初始向量的向量距離,對(duì)所述關(guān)鍵詞向量進(jìn)行聚類,得到向量聚類結(jié)果;
根據(jù)所述向量聚類結(jié)果,得到聚類中心更新向量;
計(jì)算所述聚類中心更新向量與所述聚類中心初始向量之間的向量差值;
判斷所述向量差值是否超過(guò)預(yù)設(shè)的差值閾值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于招聯(lián)消費(fèi)金融有限公司,未經(jīng)招聯(lián)消費(fèi)金融有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010736558.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測(cè)方法和裝置
- 關(guān)鍵詞排名的檢測(cè)方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲(chǔ)介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動(dòng)化否定關(guān)鍵詞方法及裝置
- 一種長(zhǎng)尾關(guān)鍵詞識(shí)別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





