[發(fā)明專利]一種基于語(yǔ)義相關(guān)度模型的中文文本摘要獲取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710397540.1 | 申請(qǐng)日: | 2017-05-31 |
| 公開(公告)號(hào): | CN107291836B | 公開(公告)日: | 2020-06-02 |
| 發(fā)明(設(shè)計(jì))人: | 孫栩;馬樹銘;許晶晶 | 申請(qǐng)(專利權(quán))人: | 北京大學(xué) |
| 主分類號(hào): | G06F16/34 | 分類號(hào): | G06F16/34;G06F40/30 |
| 代理公司: | 北京萬(wàn)象新悅知識(shí)產(chǎn)權(quán)代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100871*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語(yǔ)義 相關(guān) 模型 中文 文本 摘要 獲取 方法 | ||
本發(fā)明公布了一種基于語(yǔ)義相關(guān)度模型的中文文本摘要獲取方法,設(shè)計(jì)文本編碼器利用深度神經(jīng)網(wǎng)絡(luò)將原文本進(jìn)行壓縮,得到原文本的編碼向量;設(shè)計(jì)摘要解碼生成器生成摘要的解碼向量;再通過(guò)構(gòu)建語(yǔ)義相關(guān)度模型,得到原文本的編碼向量和摘要的解碼向量之間的相關(guān)度,作為原文本和生成摘要之間相關(guān)性的度量;再通過(guò)訓(xùn)練語(yǔ)義相關(guān)度模型最大化所述相關(guān)度,由此生成完整的摘要。使用本發(fā)明技術(shù)方案生成文本摘要,能夠提高生成摘要的質(zhì)量和準(zhǔn)確度,尤其提高生成摘要與原文本的語(yǔ)義相關(guān)度。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語(yǔ)言處理領(lǐng)域,涉及中文文本摘要算法,具體涉及一種基于語(yǔ)義相關(guān)度模型的中文文本摘要獲取方法。
背景技術(shù)
現(xiàn)有中文文本摘要算法包括基于序列到序列模型的文本摘要算法,該算法基于深度學(xué)習(xí)技術(shù),在訓(xùn)練階段讓算法預(yù)測(cè)的摘要與標(biāo)準(zhǔn)答案盡可能接近,經(jīng)過(guò)一段時(shí)間后的訓(xùn)練,該算法可以對(duì)中文的文本進(jìn)行自動(dòng)摘要。但是,由于訓(xùn)練階段的目標(biāo)函數(shù)是交叉熵函數(shù),因此,上述方法會(huì)導(dǎo)致最后訓(xùn)練得到的模型在字面上與標(biāo)準(zhǔn)摘要相近,但是在語(yǔ)義上與標(biāo)準(zhǔn)摘要可能相差很遠(yuǎn)。采用現(xiàn)有方法從中文文本摘要中產(chǎn)生的摘要與原文本語(yǔ)義相關(guān)度較低,生成摘要的準(zhǔn)確度不高,質(zhì)量不佳。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于語(yǔ)義相關(guān)度模型的中文文本摘要獲取方法,得到的摘要的語(yǔ)義表達(dá)更為準(zhǔn)確,能夠解決中文文本摘要中產(chǎn)生的摘要與原文本語(yǔ)義相關(guān)度較低的問(wèn)題。
本發(fā)明提供的技術(shù)方案是:
一種基于語(yǔ)義相關(guān)度模型的中文文本摘要獲取方法,通過(guò)構(gòu)建語(yǔ)義相關(guān)度模型,得到原文本的編碼向量和摘要的解碼向量之間的相關(guān)度,作為原文本和生成摘要之間相關(guān)性的度量;再通過(guò)訓(xùn)練語(yǔ)義相關(guān)度模型最大化上述相關(guān)度,由此生成完整的摘要;包括如下步驟:
A.設(shè)計(jì)文本編碼器,利用深度神經(jīng)網(wǎng)絡(luò)將原文本進(jìn)行壓縮,得到原文本的編碼向量Vs,即原文本經(jīng)文本編碼器進(jìn)行壓縮后得到的信息;
B.設(shè)計(jì)摘要解碼生成器,在第一個(gè)時(shí)刻輸入原文本的編碼向量Vs和起始的句子開始的標(biāo)識(shí)符,利用深度神經(jīng)網(wǎng)絡(luò)循環(huán)地在每一時(shí)刻輸入上一個(gè)時(shí)刻預(yù)測(cè)得到的字或者標(biāo)識(shí)符,經(jīng)過(guò)網(wǎng)絡(luò)結(jié)構(gòu)輸出當(dāng)前時(shí)刻預(yù)測(cè)的字,經(jīng)過(guò)一定的循環(huán)次數(shù)得到若干個(gè)連續(xù)的字,即為一段完整的摘要;解碼生成器還同時(shí)生成上述完整摘要的解碼向量Vt,生成向量的過(guò)程與步驟A相同;
C.構(gòu)建語(yǔ)義相關(guān)度模型,語(yǔ)義相關(guān)度模型為余弦相似函數(shù),表示為式1:
其中,Vs為文本編碼器生成的編碼向量,Vt為摘要解碼生成器生成的向量,符號(hào)‖·‖代表向量的二范數(shù)。余弦相似函數(shù)輸入文本編碼器和摘要解碼生成器輸出的語(yǔ)義解碼向量,輸出兩個(gè)向量之間的相關(guān)度,作為原文本和生成摘要之間相關(guān)性的度量;
D.在訓(xùn)練語(yǔ)義相關(guān)度模型時(shí),需要最大化步驟C得到的相關(guān)度。模型的訓(xùn)練使用亞當(dāng)(Adam)優(yōu)化算法。在訓(xùn)練過(guò)程中,先隨機(jī)選取訓(xùn)練數(shù)據(jù)中的若干個(gè)樣本,對(duì)這些樣本依照語(yǔ)義相關(guān)度模型計(jì)算目標(biāo)函數(shù),目標(biāo)函數(shù)表示為式2:
其中,為訓(xùn)練數(shù)據(jù)中的正確摘要,p(y|x;θ)為解碼生成器預(yù)測(cè)出摘要的概率,λ為模型的權(quán)重系數(shù),cos(Vs,Vt)為語(yǔ)義相關(guān)模型計(jì)算出的相關(guān)度值。訓(xùn)練的目標(biāo)是最大化模型的目標(biāo)函數(shù):先計(jì)算目標(biāo)函數(shù)的梯度,再使用亞當(dāng)(Adam)優(yōu)化算法依照梯度更新模型的參數(shù)。
E.經(jīng)過(guò)一定輪數(shù)的訓(xùn)練后,在開發(fā)數(shù)據(jù)集上能達(dá)到最好效果時(shí)停止訓(xùn)練,此時(shí)解碼生成器即可生成完整的摘要。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710397540.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





