[發(fā)明專利]一種基于不定長(zhǎng)上下文的詞向量生成方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710609471.6 | 申請(qǐng)日: | 2017-07-25 |
| 公開(公告)號(hào): | CN107608953B | 公開(公告)日: | 2020-08-14 |
| 發(fā)明(設(shè)計(jì))人: | 王俊麗;王小敏;楊亞星 | 申請(qǐng)(專利權(quán))人: | 同濟(jì)大學(xué) |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F40/30;G06N3/08 |
| 代理公司: | 上海科律專利代理事務(wù)所(特殊普通合伙) 31290 | 代理人: | 葉鳳 |
| 地址: | 200092 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 不定 長(zhǎng)上 下文 向量 生成 方法 | ||
一種基于不定長(zhǎng)上下文的詞向量生成方法。本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,特別涉及到基于不定長(zhǎng)上下文的詞向量生成方法。本發(fā)明的技術(shù)方案提出了一種不定長(zhǎng)度的上下文劃分策略和基于不定長(zhǎng)上下文的詞向量生成方法。這種策略利用標(biāo)點(diǎn)符號(hào)把語(yǔ)料庫(kù)劃分成了長(zhǎng)度不定,但語(yǔ)義完整的上下文。長(zhǎng)度的不固定導(dǎo)致了傳統(tǒng)的語(yǔ)言模型無(wú)法利用這種上下文生成詞向量。為了應(yīng)對(duì)這難題,本文結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)可以處理不定長(zhǎng)上下文的語(yǔ)言模型F?Model。經(jīng)過實(shí)施結(jié)果分析,使用標(biāo)點(diǎn)把語(yǔ)料庫(kù)劃分成語(yǔ)義完整的上下文可以提高詞向量的質(zhì)量。F?Model具有良好的學(xué)習(xí)能力,實(shí)施得到的詞向量蘊(yùn)含豐富的語(yǔ)義和較好的線性關(guān)系。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,特別涉及到基于不定長(zhǎng)上下文的詞向量生成方法。
背景技術(shù)
在常見的自然語(yǔ)言處理任務(wù)中,大多數(shù)都是基于詞向量來(lái)實(shí)現(xiàn)的,而且最終的處理結(jié)果往往很大程度上依賴于詞向量的質(zhì)量。一般而言,詞向量的質(zhì)量越高,其包含的語(yǔ)義越豐富和精確,也更容易讓計(jì)算機(jī)理解自然語(yǔ)言中的語(yǔ)義,這也從根本上提高了其他自然語(yǔ)言處理任務(wù)的處理結(jié)果。所以如何生成高質(zhì)量的詞向量是自然語(yǔ)言處理領(lǐng)域中一項(xiàng)基礎(chǔ)而又重要的任務(wù),這對(duì)后續(xù)其他的自然語(yǔ)言處理任務(wù),如機(jī)器翻譯,詞性標(biāo)注等產(chǎn)生直接又重大的影響。
常用的詞向量生成方法中,為了簡(jiǎn)化問題和計(jì)算復(fù)雜度,都會(huì)把語(yǔ)料庫(kù)劃分成固定長(zhǎng)度的上下文單元,但是這種固定長(zhǎng)度的上下文并不是完整的語(yǔ)義單元,這造成了上下文的語(yǔ)義缺失或語(yǔ)義混亂。上下文的語(yǔ)義缺失和語(yǔ)義混亂會(huì)傳遞到詞向量中,直接導(dǎo)致詞向量的語(yǔ)義缺失和語(yǔ)義混亂。
為了解決這種固定上下文帶來(lái)的詞向量語(yǔ)義缺失和語(yǔ)義混亂問題,本文充分利用原始語(yǔ)料信息,利用標(biāo)點(diǎn)符號(hào)把語(yǔ)料庫(kù)劃分為語(yǔ)義相對(duì)完整的上下文單元,這樣的上下文單元的長(zhǎng)度是不確定的,因此傳統(tǒng)的基于固定上下文的詞向量生成方法將不再適用。
為此,本發(fā)明出了一種基于不定長(zhǎng)上下文的詞向量生成方法。這種方法基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),加強(qiáng)了詞語(yǔ)之間的長(zhǎng)依賴信息。最后實(shí)施結(jié)果表明,這種方法生成的詞向量蘊(yùn)含更加豐富的語(yǔ)義,詞向量之間具有更好的線性關(guān)系。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種不定長(zhǎng)度的上下文劃分策略和基于不定長(zhǎng)上下文的詞向量生成方法。這種策略利用標(biāo)點(diǎn)符號(hào)把語(yǔ)料庫(kù)劃分成了長(zhǎng)度不定,但語(yǔ)義完整的上下文,解決傳統(tǒng)的語(yǔ)言模型中使用固定長(zhǎng)度的上下文帶來(lái)的語(yǔ)義缺失和混亂問題。基于這種策略劃分的不定長(zhǎng)上下文的詞向量生成方法,利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的特點(diǎn)和優(yōu)勢(shì),加強(qiáng)了詞語(yǔ)之間的長(zhǎng)依賴信息,最終提高生成的詞向量的質(zhì)量。
為達(dá)到上述發(fā)明目的,本發(fā)明提出基于不定長(zhǎng)上下文的詞向量生成方法,其特征在于,利用標(biāo)點(diǎn)符號(hào)劃、概率統(tǒng)計(jì)、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的特點(diǎn)和優(yōu)勢(shì),補(bǔ)全上下文語(yǔ)義完整性,加強(qiáng)詞與詞之間的長(zhǎng)依賴關(guān)系,提高詞向量的語(yǔ)義蘊(yùn)含能力。
本發(fā)明首先在對(duì)語(yǔ)料庫(kù)進(jìn)行預(yù)處理后,使用標(biāo)點(diǎn)符號(hào)劃分上下文,把語(yǔ)料庫(kù)劃分為長(zhǎng)度不等,語(yǔ)義完整的上下文單元。然后利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)上下文中各詞的權(quán)重,這權(quán)重隨后和語(yǔ)料庫(kù)的全局分布結(jié)合生成上下文中各詞的最終權(quán)重。隨后利用這最終權(quán)重和詞向量計(jì)算上下文的向量表達(dá)。隨后利用上下文的向量表達(dá)構(gòu)建和上下文中每個(gè)詞之間的一對(duì)多映射關(guān)系。隨后通過隨機(jī)梯度算法訓(xùn)練模型,并最終獲得詞向量。
本發(fā)明是通過下述技術(shù)方案實(shí)現(xiàn)的:
(8)文檔預(yù)處理,獲取訓(xùn)練語(yǔ)料庫(kù)。給定關(guān)于某專業(yè)領(lǐng)域的一組文檔集合,通過詞去掉停用詞和低頻詞等預(yù)處理技術(shù),獲取語(yǔ)料庫(kù)中的有用信息,進(jìn)而構(gòu)成訓(xùn)練語(yǔ)料庫(kù)。
(9)詞頻統(tǒng)計(jì),統(tǒng)計(jì)語(yǔ)料分布。基于文檔中詞語(yǔ)出現(xiàn)頻率的統(tǒng)計(jì),生成語(yǔ)料庫(kù)的字典,字典中包含語(yǔ)料庫(kù)中的詞、詞的索引和詞的頻率。
(10)構(gòu)建訓(xùn)練集,根據(jù)訓(xùn)練語(yǔ)料庫(kù)中的標(biāo)點(diǎn)符號(hào),把語(yǔ)料庫(kù)劃分成長(zhǎng)度不等的上下文,形成訓(xùn)練集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同濟(jì)大學(xué),未經(jīng)同濟(jì)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710609471.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 自動(dòng)創(chuàng)建上下文信息提供配置的系統(tǒng)
- 用于管理上下文的方法、系統(tǒng)和裝置
- 一種基于本體的上下文感知應(yīng)用平臺(tái)框架模型
- 一種基于上下文感知的智能家居系統(tǒng)
- 實(shí)現(xiàn)上下文感知業(yè)務(wù)應(yīng)用的方法和相關(guān)裝置
- 一種多推理引擎融合上下文感知系統(tǒng)及其工作方法
- 多個(gè)并發(fā)上下文虛擬演進(jìn)型會(huì)話管理(虛擬ESM)
- 一種基于異質(zhì)上下文感知的推薦方法
- 一種可提高上下文質(zhì)量的本體建模方法及裝置
- 微服務(wù)全局上下文控制方法及系統(tǒng)





