[發(fā)明專利]一種核心詞確定方法和相關(guān)裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202110301838.4 | 申請(qǐng)日: | 2021-03-22 |
| 公開(公告)號(hào): | CN113705214A | 公開(公告)日: | 2021-11-26 |
| 發(fā)明(設(shè)計(jì))人: | 黃劍輝 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F40/279 | 分類號(hào): | G06F40/279;G06F40/30;G06K9/62;G06N20/00 |
| 代理公司: | 深圳市深佳知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44285 | 代理人: | 王兆林 |
| 地址: | 518057 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 核心 確定 方法 相關(guān) 裝置 | ||
本申請(qǐng)實(shí)施例公開了一種核心詞確定方法和相關(guān)裝置,處理設(shè)備可以在通過(guò)融合張量進(jìn)一步突出詞向量和文本向量的相關(guān)信息的基礎(chǔ)上,結(jié)合區(qū)塊鏈技術(shù)和人工智能技術(shù),通過(guò)詞標(biāo)簽和詞權(quán)重參數(shù)的差異對(duì)用于確定詞權(quán)重參數(shù)的初始詞權(quán)重模型進(jìn)行監(jiān)督訓(xùn)練,從而通過(guò)對(duì)調(diào)節(jié)該初始詞權(quán)重模型進(jìn)行調(diào)參來(lái)提高所確定詞權(quán)重參數(shù)的準(zhǔn)確度,使通過(guò)監(jiān)督訓(xùn)練得到的詞權(quán)重模型能夠?qū)ξ谋局械暮诵脑~進(jìn)行精準(zhǔn)識(shí)別,提高識(shí)別準(zhǔn)確率。
技術(shù)領(lǐng)域
本申請(qǐng)涉及數(shù)據(jù)處理領(lǐng)域,特別是涉及一種核心詞確定方法和相關(guān)裝置。
背景技術(shù)
文本中的核心詞能夠體現(xiàn)出文本的核心語(yǔ)義成分,例如針對(duì)標(biāo)題類文本的標(biāo)題詞權(quán)重任務(wù)(term-weights)就是進(jìn)行句子核心語(yǔ)義成分識(shí)別,消除冗余成分影響的主要方式。
如何準(zhǔn)確識(shí)別文本中的核心詞是亟需解決的問(wèn)題,相關(guān)技術(shù)中大多采用統(tǒng)計(jì)方式完成,統(tǒng)計(jì)為無(wú)監(jiān)督方式,代表方式有詞頻-逆文本頻率指數(shù)(term frequency–inversedocument frequency,TF-IDF),互信息(mutual information,MI)等。
統(tǒng)計(jì)方式主要基于文本的全局語(yǔ)料進(jìn)行詞頻統(tǒng)計(jì),考慮的數(shù)據(jù)維度較為單一,對(duì)文本中核心詞的識(shí)別準(zhǔn)確率難以符合預(yù)期。
發(fā)明內(nèi)容
為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供了一種核心詞確定方法和相關(guān)裝置,使通過(guò)監(jiān)督訓(xùn)練得到的詞權(quán)重模型能夠?qū)ξ谋局械暮诵脑~進(jìn)行精準(zhǔn)識(shí)別,提高識(shí)別準(zhǔn)確率。
本申請(qǐng)實(shí)施例公開了如下技術(shù)方案:
第一方面,本申請(qǐng)實(shí)施例公開了一種核心詞確定方法,所述方法包括:
獲取包括樣本文本和樣本分詞的詞標(biāo)簽的訓(xùn)練樣本,所述樣本分詞為所述樣本文本的多個(gè)分詞中的一個(gè),所述詞標(biāo)簽用于標(biāo)識(shí)所述樣本分詞是否為所述樣本文本的核心詞;
將所述訓(xùn)練樣本作為初始詞權(quán)重模型的輸入數(shù)據(jù)進(jìn)行模型訓(xùn)練,所述初始詞權(quán)重模型包括文本模塊、詞模塊和融合模塊,所述文本模塊用于提取所述樣本文本的文本向量,所述詞模塊用于提取所述樣本分詞的詞向量,所述融合模塊用于通過(guò)融合張量,根據(jù)所述文本向量和所述詞向量生成文本融合向量;
通過(guò)所述初始詞權(quán)重模型獲取根據(jù)所述文本融合向量確定的詞權(quán)重參數(shù),所述詞權(quán)重參數(shù)用于標(biāo)識(shí)所述樣本分詞屬于所述樣本文本的核心詞的概率;
根據(jù)所述詞權(quán)重參數(shù)與所述詞標(biāo)簽的差別,對(duì)所述融合張量進(jìn)行參數(shù)調(diào)整;
通過(guò)訓(xùn)練得到的詞權(quán)重模型識(shí)別目標(biāo)文本中的核心詞。
第二方面,本申請(qǐng)實(shí)施例公開了一種核心詞確定裝置,所述裝置包括第一獲取單元、訓(xùn)練單元、第二獲取單元、調(diào)參單元和識(shí)別單元:
所述第一獲取單元,用于獲取包括樣本文本和樣本分詞的詞標(biāo)簽的訓(xùn)練樣本,所述樣本分詞為所述樣本文本的多個(gè)分詞中的一個(gè),所述詞標(biāo)簽用于標(biāo)識(shí)所述樣本分詞是否為所述樣本文本的核心詞;
所述訓(xùn)練單元,用于將所述訓(xùn)練樣本作為初始詞權(quán)重模型的輸入數(shù)據(jù)進(jìn)行模型訓(xùn)練,所述初始詞權(quán)重模型包括文本模塊、詞模塊和融合模塊,所述文本模塊用于提取所述樣本文本的文本向量,所述詞模塊用于提取所述樣本分詞的詞向量,所述融合模塊用于通過(guò)融合張量,根據(jù)所述文本向量和所述詞向量生成文本融合向量;
所述第二獲取單元,用于通過(guò)所述初始詞權(quán)重模型獲取根據(jù)所述文本融合向量確定的詞權(quán)重參數(shù),所述詞權(quán)重參數(shù)用于標(biāo)識(shí)所述樣本分詞屬于所述樣本文本的核心詞的概率;
所述調(diào)參單元,用于根據(jù)所述詞權(quán)重參數(shù)與所述詞標(biāo)簽的差別,對(duì)所述融合張量進(jìn)行參數(shù)調(diào)整;
所述識(shí)別單元,用于通過(guò)訓(xùn)練得到的詞權(quán)重模型識(shí)別目標(biāo)文本中的核心詞。
第三方面,本申請(qǐng)實(shí)施例公開了一種核心詞確定方法,所述方法包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110301838.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





