[發(fā)明專利]跨段落文本語義表示向量的生成方法、裝置及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110172625.6 | 申請(qǐng)日: | 2021-02-08 |
| 公開(公告)號(hào): | CN114912457A | 公開(公告)日: | 2022-08-16 |
| 發(fā)明(設(shè)計(jì))人: | 胡恩瑞;付成真;羅蘭;詹珂;張?chǎng)斡?/a> | 申請(qǐng)(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號(hào): | G06F40/30 | 分類號(hào): | G06F40/30;G06F40/295;G06N3/04 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 熊永強(qiáng);李稷芳 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 段落 文本 語義 表示 向量 生成 方法 裝置 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)實(shí)施例提供一種跨段落文本語義表示向量的生成方法、裝置及存儲(chǔ)介質(zhì),包括:根據(jù)跨段落文本得到所述跨段落文本的第一語義表示向量和多粒度圖;根據(jù)所述跨段落文本的第一語義表示向量和所述多粒度圖得到所述跨段落文本的圖節(jié)點(diǎn)特征向量;得到所述跨段落文本的第二語義表示向量,所述第一語義表示向量和所述第二語義表示向量都指示所述跨段落文本的語義信息,所述第二語義表示向量是融合所述跨段落文本的第一語義表示向量和所述圖節(jié)點(diǎn)特征向量得到的。由于本方案涉及的粒度種類更多,使得本方案的跨段落文本語義表示向量包含的語義信息更豐富更全面,有助于提高后續(xù)進(jìn)行搜索的候選路徑的排序的準(zhǔn)確度,也有助于提高問答答案提取的準(zhǔn)確度。
技術(shù)領(lǐng)域
本申請(qǐng)涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種跨段落文本語義表示向量的生成方法、裝置及存儲(chǔ)介質(zhì)。
背景技術(shù)
目前深度預(yù)訓(xùn)練語言模型是搜索、問答等自然語言處理任務(wù)中的主流技術(shù)。深度預(yù)訓(xùn)練語言模型能夠?yàn)檩斎胛谋旧烧Z義表示向量,但由于其核心結(jié)構(gòu)-全連接注意力層提取語義信息時(shí),完全依賴模型對(duì)標(biāo)識(shí)符token之間關(guān)系的學(xué)習(xí),token是基于文本分割后得到的,因此徹底丟棄了可能獲得的額外先驗(yàn)信息,如圖1a所示。對(duì)于復(fù)雜的搜索、問答等場(chǎng)景,輸入涉及多個(gè)段落,采用深度預(yù)訓(xùn)練語言模型存在輸入的文本更多、文本包含的對(duì)象和對(duì)象之間的關(guān)系更復(fù)雜、需要提取跨段落語義信息等問題,這使得完全依賴模型通過學(xué)習(xí)token之間關(guān)系提取語義信息的方式的表現(xiàn)嚴(yán)重下降,深度預(yù)訓(xùn)練語言模型生成文本語義表示向量的難度大幅增加。
現(xiàn)有技術(shù)中對(duì)于復(fù)雜的搜索、問答等場(chǎng)景,為了基于深度預(yù)訓(xùn)練語言模型更好地生成跨段落文本語義表示向量,基于實(shí)體之間的語義聯(lián)系,通過在實(shí)體粒度進(jìn)行信息交互,生成實(shí)體圖中的圖節(jié)點(diǎn)特征向量,并將該圖節(jié)點(diǎn)特征向量與深度預(yù)訓(xùn)練語言模型生成的文本語義表示向量進(jìn)行融合,得到最終的跨段落文本語義表示向量。該方法生成的跨段落文本語義表示向量除了深度預(yù)訓(xùn)練語言模型提取的語義信息外,還融入了實(shí)體之間的語義聯(lián)系這一額外先驗(yàn)信息,如圖1b所示。
然而,由于實(shí)體粒度的語義聯(lián)系過于單一,這導(dǎo)致該技術(shù)無法有效解決復(fù)雜搜索、問答任務(wù)場(chǎng)景中輸入的多個(gè)網(wǎng)頁段落之間語義聯(lián)系較弱的問題,也無法針對(duì)輸入的更長文本、更復(fù)雜的對(duì)象及對(duì)象之間的關(guān)系,聚焦關(guān)鍵語義信息,對(duì)跨段落文本語義表示向量的提升效果也不明顯。
發(fā)明內(nèi)容
本申請(qǐng)公開了一種跨段落文本語義表示向量的生成方法、裝置及存儲(chǔ)介質(zhì),可以生成包含語義更豐富更全面的跨段落文本語義表示向量。
第一方面,本申請(qǐng)實(shí)施例提供一種跨段落文本語義表示向量的生成方法,包括:根據(jù)跨段落文本得到所述跨段落文本的第一語義表示向量和多粒度圖,其中,所述跨段落文本包括至少兩個(gè)段落,所述多粒度圖指示所述跨段落文本中同一段落內(nèi)的多種粒度的子文本之間的關(guān)系,以及跨段落的多種粒度的子文本之間的關(guān)系;根據(jù)所述跨段落文本的第一語義表示向量和所述多粒度圖得到所述跨段落文本的圖節(jié)點(diǎn)特征向量,所述圖節(jié)點(diǎn)特征向量指示所述跨段落文本的同一段落內(nèi)以及跨段落的多種粒度的子文本的語義信息;得到所述跨段落文本的第二語義表示向量,所述第一語義表示向量和所述第二語義表示向量都指示所述跨段落文本的語義信息,所述第二語義表示向量是融合所述跨段落文本的第一語義表示向量和所述圖節(jié)點(diǎn)特征向量得到的。上述第二語義表示向量是融合所述跨段落文本的第一語義表示向量和所述圖節(jié)點(diǎn)特征向量得到的,也就是說,通過將所述跨段落文本的第一語義表示向量和所述圖節(jié)點(diǎn)特征向量進(jìn)行融合得到的。該融合是在跨段落文本的第一語義表示向量的基礎(chǔ)上,將跨段落文本的同一段落內(nèi)以及跨段落的多種粒度的子文本之間的關(guān)系進(jìn)行融合進(jìn)而得到上述第二語義表示向量。融合是指基于兩個(gè)特征向量得到一個(gè)特征向量,本方案對(duì)如何實(shí)現(xiàn)融合不做具體限定。例如,通過向量疊加的方式進(jìn)行融合,或者也可以采用其他手段融合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110172625.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種目錄更新方法及裝置
- 變量離散化的方法及裝置
- 一種文檔密級(jí)自動(dòng)識(shí)別方法
- 一種目錄生成方法及裝置
- 一種聊天數(shù)據(jù)分段方法、裝置及存儲(chǔ)介質(zhì)
- 段落層級(jí)的構(gòu)建方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文本中關(guān)鍵段落的檢測(cè)方法及裝置
- 目標(biāo)段落的確定方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 電子文檔中段落順序的處理方法、裝置、存儲(chǔ)介質(zhì)和設(shè)備
- 目標(biāo)文本的摘要提取方法及裝置、電子設(shè)備、存儲(chǔ)介質(zhì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語義表征和語義計(jì)算的信號(hào)語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





