[發(fā)明專利]一種融合詞性與位置信息的詞向量訓(xùn)練方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710384135.6 | 申請日: | 2017-05-26 |
| 公開(公告)號: | CN107239444B | 公開(公告)日: | 2019-10-08 |
| 發(fā)明(設(shè)計)人: | 文坤梅;李瑞軒;劉其磊;李玉華;辜希武;昝杰;楊琪 | 申請(專利權(quán))人: | 華中科技大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62 |
| 代理公司: | 華中科技大學(xué)專利中心 42201 | 代理人: | 廖盈春;李智 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 詞性 位置 信息 向量 訓(xùn)練 方法 系統(tǒng) | ||
本發(fā)明公開了一種融合詞性與位置信息的詞向量訓(xùn)練方法及系統(tǒng),該方法包括:對數(shù)據(jù)進(jìn)行預(yù)處理得到目標(biāo)文本;對目標(biāo)文本進(jìn)行分詞和詞性標(biāo)注;對詞性信息建模和對位置信息建模;在基于負(fù)采樣策略的skip?gram模型的基礎(chǔ)上融合詞性與位置信息進(jìn)行詞向量學(xué)習(xí)得到目標(biāo)詞向量,該目標(biāo)詞向量用于單詞類比任務(wù)和單詞相似度任務(wù)評估。本發(fā)明考慮了單詞的詞性信息及位置信息,且在對單詞的詞性和位置信息進(jìn)行建模的基礎(chǔ)上,充分利用單詞的詞性信息以及詞性之間的位置信息來幫助詞向量的訓(xùn)練,并且在訓(xùn)練的過程中對于參數(shù)的更新也更加合理。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,更具體地,涉及一種融合詞性與位置信息的詞向量訓(xùn)練方法及系統(tǒng)。
背景技術(shù)
近年來,隨著移動互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,使得互聯(lián)網(wǎng)中數(shù)據(jù)的規(guī)模急速增長,也使得數(shù)據(jù)的復(fù)雜度急劇增高。這就使得對這些海量的無結(jié)構(gòu)、未標(biāo)注數(shù)據(jù)的處理分析成為一大難題。
傳統(tǒng)的機(jī)器學(xué)習(xí)方法采用特征工程(Feature engineering)對數(shù)據(jù)進(jìn)行符號化表示以便于模型的建模與求解,但特征工程中常用的詞袋表示技術(shù)如One-hot向量隨著數(shù)據(jù)復(fù)雜度的增長,特征的維度也會急劇增加從而導(dǎo)致維度災(zāi)難問題。并且基于One-hot向量表示的方法還存在語義鴻溝現(xiàn)象。隨著“如果兩個詞上下文相似,那么它們的語義也相似”的分布假說(distributional hypothesis)被提出,基于分布假說的單詞分布表示技術(shù)不斷地被提出。其中最主要的有基于矩陣的分布表示、基于聚類的分布表示及基于詞向量的分布表示。但無論是基于矩陣表示還是基于聚類表示的分布表示方法雖然能夠在特征維度較小時表達(dá)簡單的上下文信息。但當(dāng)特征維度較高時,模型對于上下文的表達(dá)尤其是對復(fù)雜上下文的表達(dá)就無能為力。而基于詞向量的表示技術(shù),使得無論是對于每個單詞的表示,還是通過線性組合的方法來表示單詞的上下文都避免了出現(xiàn)維度災(zāi)難的問題。而且由于單詞之間的距離可以通過他們所對應(yīng)詞向量之間的余弦距離或歐式距離來衡量,這也在很大程度上消除了傳統(tǒng)的詞袋模型中的語義鴻溝的問題。
然而,目前已有的詞向量研究工作大都集中在通過簡化模型中神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來減少模型復(fù)雜度,有的工作融合了情感、主題等信息,而融合詞性信息的研究工作很少且在這些很少的工作中針對的詞性粒度比較大,對于詞性信息的利用很不充分,對于詞性信息的更新也不太合理。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明的目的在于提供了一種融合詞性與位置信息的詞向量訓(xùn)練方法及系統(tǒng),由此解決現(xiàn)有技術(shù)中融合詞性信息的研究工作中針對的詞性粒度比較大,對于詞性信息的利用很不充分,對于詞性信息的更新也不太合理的技術(shù)問題。
為實現(xiàn)上述目的,按照本發(fā)明的一個方面,提供了一種融合詞性與位置信息的詞向量訓(xùn)練方法,包括如下步驟:
S1、對原始文本進(jìn)行預(yù)處理得到目標(biāo)文本;
S2、根據(jù)單詞的上下文信息,采用詞性標(biāo)注集中的詞性對目標(biāo)文本中的單詞進(jìn)行詞性標(biāo)注;
S3、根據(jù)標(biāo)注的詞性信息進(jìn)行建模構(gòu)建詞性關(guān)聯(lián)權(quán)重矩陣M,以及針對詞性對所對應(yīng)單詞對的相對位置i進(jìn)行建模,構(gòu)建與位置對應(yīng)的位置詞性關(guān)聯(lián)權(quán)重矩陣Mi',其中,矩陣M的行列維度為詞性標(biāo)注集中詞性的種類大小,矩陣M中的元素為該元素的行對應(yīng)單詞的詞性與該元素的列對應(yīng)單詞的詞性的共現(xiàn)概率,矩陣Mi'的行列維度與矩陣M相同,矩陣Mi'中的元素為該元素的行對應(yīng)單詞的詞性與該元素的列對應(yīng)單詞的詞性在相對位置i時的共現(xiàn)概率;
S4、將建模后的矩陣M和矩陣Mi'融合到skip-gram詞向量模型中構(gòu)建目標(biāo)模型,由目標(biāo)模型進(jìn)行詞向量學(xué)習(xí)得到目標(biāo)詞向量,其中,目標(biāo)詞向量用于單詞類比任務(wù)以及單詞相似度任務(wù)。
優(yōu)選地,步驟S2具體包括以下子步驟:
S2.1、對目標(biāo)文本進(jìn)行分詞,以區(qū)分出目標(biāo)文本中的所有單詞;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中科技大學(xué),未經(jīng)華中科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710384135.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





