[發(fā)明專利]一種提升句向量語義的方法、系統(tǒng)及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 201810990905.6 | 申請(qǐng)日: | 2018-08-28 |
| 公開(公告)號(hào): | CN109408802A | 公開(公告)日: | 2019-03-01 |
| 發(fā)明(設(shè)計(jì))人: | 劉浪;肖龍?jiān)?/a>;蔡振華;李稀敏;劉曉葳;譚玉坤;王靜 | 申請(qǐng)(專利權(quán))人: | 廈門快商通信息技術(shù)有限公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 廈門仕誠(chéng)聯(lián)合知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35227 | 代理人: | 樂珠秀 |
| 地址: | 361007 福建省廈門*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 詞向量 向量 文本 權(quán)重 語義 存儲(chǔ)介質(zhì) 去除 句子 分詞處理 分詞結(jié)果 句子語義 命名實(shí)體 停用詞 賦予 加權(quán) | ||
本發(fā)明公開了一種提升句向量語義的方法、系統(tǒng)及存儲(chǔ)介質(zhì),其通過對(duì)當(dāng)前句子進(jìn)行上下文擴(kuò)展,得到擴(kuò)展文本;并對(duì)所述擴(kuò)展文本進(jìn)行命名實(shí)體識(shí)別,得到所述擴(kuò)展文本的實(shí)體詞;以及對(duì)所述擴(kuò)展文本進(jìn)行分詞處理,并對(duì)分詞結(jié)果去除所述實(shí)體詞和去除停用詞,得到非實(shí)體詞;然后對(duì)所述實(shí)體詞和所述非實(shí)體詞分別計(jì)算詞向量,并且,對(duì)所述實(shí)體詞的詞向量賦予第一權(quán)重,對(duì)所述非實(shí)體詞的詞向量賦予第二權(quán)重;最后根據(jù)所述實(shí)體詞和所述非實(shí)體詞的詞向量及對(duì)應(yīng)的權(quán)重,計(jì)算所有詞向量的加權(quán)平均值,作為當(dāng)前句子的句向量;從而提升句向量對(duì)句子語義的表達(dá)效果。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,特別是一種提升句向量語義的方法及其應(yīng)用該方法的系統(tǒng)和存儲(chǔ)介質(zhì)。
背景技術(shù)
在自然語言處理(Natural Language Processing,NLP)領(lǐng)域,句向量一直不能十分準(zhǔn)確的表達(dá)一個(gè)句子所要表達(dá)的意思,特別是上下文中的句子,其意思根據(jù)上下文而變化,各個(gè)不同的上下文情景當(dāng)中,句向量的表達(dá)效果不是那么準(zhǔn)確,在這方面一直都沒有較好的解決辦法。
發(fā)明內(nèi)容
本發(fā)明為解決上述問題,提供了一種提升句向量語義的方法、系統(tǒng)及存儲(chǔ)介質(zhì),通過增加上下文詞語的權(quán)重來得到當(dāng)前句子的向量,從而提升句向量對(duì)句子語義的表達(dá)效果。
為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
一種提升句向量語義的方法,其包括以下步驟:
a.對(duì)當(dāng)前句子進(jìn)行上下文擴(kuò)展,得到擴(kuò)展文本;
b.對(duì)所述擴(kuò)展文本進(jìn)行命名實(shí)體識(shí)別,得到所述擴(kuò)展文本的實(shí)體詞;
c.對(duì)所述擴(kuò)展文本進(jìn)行分詞處理,并對(duì)分詞結(jié)果去除所述實(shí)體詞和去除停用詞,得到非實(shí)體詞;
d.對(duì)所述實(shí)體詞和所述非實(shí)體詞分別計(jì)算詞向量,并且,對(duì)所述實(shí)體詞的詞向量賦予第一權(quán)重,對(duì)所述非實(shí)體詞的詞向量賦予第二權(quán)重;
e.根據(jù)所述實(shí)體詞和所述非實(shí)體詞的詞向量及對(duì)應(yīng)的權(quán)重,計(jì)算所有詞向量的加權(quán)平均值,作為當(dāng)前句子的句向量。
優(yōu)選的,所述的步驟a中,對(duì)當(dāng)前句子進(jìn)行上下文擴(kuò)展,是指將當(dāng)前句子向上和/或向下擴(kuò)展至三個(gè)句子以上。
具體的,所述的步驟a中,若當(dāng)前句子為文本的中間句子,則所述擴(kuò)展文本包括當(dāng)前句子、當(dāng)前句子的上一個(gè)句子、當(dāng)前句子的下一個(gè)句子;若當(dāng)前句子為文本的第一個(gè)句子,則所述擴(kuò)展文本包括當(dāng)前句子和當(dāng)前句子的下兩個(gè)句子;若當(dāng)前句子為文本的最后一個(gè)句子,則所述擴(kuò)展文本包括當(dāng)前句子和當(dāng)前句子的上兩個(gè)句子。
優(yōu)選的,所述的步驟b中,對(duì)所述擴(kuò)展文本進(jìn)行命名實(shí)體識(shí)別,是采用實(shí)體詞典庫(kù)對(duì)所述擴(kuò)展文本進(jìn)行匹配處理以獲取所述擴(kuò)展文本的實(shí)體詞,和/或,采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法進(jìn)行識(shí)別所述擴(kuò)展文本的實(shí)體詞;其中,所述統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法包括:隱馬爾可夫模型HMM、最大熵ME、支持向量機(jī)SVM、條件隨機(jī)場(chǎng)CRF。
其中,所述的步驟b中,進(jìn)一步對(duì)所述實(shí)體詞進(jìn)行基于tf-idf算法提取關(guān)鍵詞,得到關(guān)鍵實(shí)體詞;并對(duì)所述關(guān)鍵實(shí)體詞賦予第三權(quán)重,且所述第三權(quán)重大于所述第一權(quán)重或所述第二權(quán)重。
優(yōu)選的,所述的步驟c中,去除停用詞,是通過查找停用詞表,并將分詞結(jié)果中存在于所述停用詞表中的詞語作為停用詞去除;并且,進(jìn)一步將去除停用詞后的詞語進(jìn)行詞性還原。
優(yōu)選的,所述的步驟d中,所述第一權(quán)重大于所述第二權(quán)重。
對(duì)應(yīng)的,本發(fā)明還提供一種提升句向量語義的系統(tǒng),其包括:
文本擴(kuò)展模塊,用于對(duì)當(dāng)前句子進(jìn)行上下文擴(kuò)展,得到擴(kuò)展文本;
實(shí)體識(shí)別模塊,用于對(duì)所述擴(kuò)展文本進(jìn)行命名實(shí)體識(shí)別,得到所述擴(kuò)展文本的實(shí)體詞;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門快商通信息技術(shù)有限公司,未經(jīng)廈門快商通信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810990905.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 權(quán)重調(diào)整模塊與權(quán)重調(diào)整方法
- 網(wǎng)頁主題的分類方法及裝置
- 接收裝置
- 基于權(quán)重濾波的視頻去噪裝置及方法
- 權(quán)重?cái)?shù)據(jù)存儲(chǔ)方法和基于該方法的神經(jīng)網(wǎng)絡(luò)處理器
- 危害因素的權(quán)重因子的確定方法、裝置及存儲(chǔ)介質(zhì)
- 用于優(yōu)化神經(jīng)網(wǎng)絡(luò)的方法
- 處理器
- 用于對(duì)深度神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行轉(zhuǎn)換的方法和系統(tǒng)
- 神經(jīng)網(wǎng)絡(luò)的量化方法、裝置、服務(wù)器和存儲(chǔ)介質(zhì)





