[發(fā)明專利]目標(biāo)語句提取方法、問題生成方法以及信息處理設(shè)備有效
| 申請?zhí)枺?/td> | 201810827532.0 | 申請日: | 2018-07-25 |
| 公開(公告)號: | CN110852110B | 公開(公告)日: | 2023-08-04 |
| 發(fā)明(設(shè)計)人: | 張姝;孟遙 | 申請(專利權(quán))人: | 富士通株式會社 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 陳煒;王偉楠 |
| 地址: | 日本神*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 目標(biāo) 語句 提取 方法 問題 生成 以及 信息處理 設(shè)備 | ||
提供了目標(biāo)語句提取方法、問題生成方法以及信息處理設(shè)備。目標(biāo)語句提取方法包括:通過將待處理文檔中的每個詞用詞向量表示,構(gòu)建第一語義序列;利用深度學(xué)習(xí)模型對第一語義序列進(jìn)行處理,以獲得第二語義序列,第二語義序列的每個元素與第一語義序列中的每個詞向量對應(yīng)并且體現(xiàn)了與該詞向量有關(guān)的上下文信息;基于待處理文檔中的各個詞在預(yù)先獲得的文檔和語句對數(shù)據(jù)庫中的匹配結(jié)果,分別對第二語義序列中的各個元素進(jìn)行加權(quán)處理;利用序列標(biāo)注模型對加權(quán)處理后的第二語義序列進(jìn)行標(biāo)注,并基于標(biāo)注結(jié)果獲取待處理文檔中的目標(biāo)語句,其中,深度學(xué)習(xí)模型和序列標(biāo)注模型是利用標(biāo)記好的訓(xùn)練文檔和訓(xùn)練語句而預(yù)先訓(xùn)練獲得的。
技術(shù)領(lǐng)域
本公開總體上涉及信息服務(wù)領(lǐng)域,具體而言,涉及一種從待處理文檔中提取目標(biāo)語句的目標(biāo)語句提取方法、基于待處理文檔生成問題的問題生成方法、以及能夠?qū)崿F(xiàn)目標(biāo)語句提取和/或問題生成的功能的信息處理設(shè)備。
背景技術(shù)
在信息服務(wù)領(lǐng)域,如何高效、準(zhǔn)確地從待處理文檔中提取感興趣的信息一直是得到廣泛關(guān)注的問題。
現(xiàn)有的提取感興趣信息的方式之一是信息檢索,其根據(jù)用戶查詢,返回從相關(guān)文檔中獲取的檢索結(jié)果。由于一般用戶的查詢關(guān)鍵詞不一定準(zhǔn)確或完備,可能需要人工查看每一個文檔的具體內(nèi)容,找出相關(guān)的有用信息。這樣做不但費(fèi)時費(fèi)力,而且很容易由于不正確的查詢導(dǎo)致返回文檔的不正確,或者由于不仔細(xì)地閱讀導(dǎo)致忽略了一個相關(guān)的信息條目。
因此,需要提供一種改進(jìn)的從待處理文檔中提取感興趣信息的方法。
發(fā)明內(nèi)容
在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。
鑒于對現(xiàn)有的信息服務(wù)進(jìn)行改進(jìn)的需求,本發(fā)明的目的之一是提供一種從待處理文檔中提取目標(biāo)語句的方法,其能夠從待處理文檔中自動提取作為關(guān)注信息(諸如潛在問題的回答)的目標(biāo)語句。
根據(jù)本公開的第一方面,提供了一種目標(biāo)語句提取方法,用于從待處理文檔中提取目標(biāo)語句。該方法包括:通過將待處理文檔中的每個詞用詞向量表示,構(gòu)建待處理文檔的第一語義序列;利用深度學(xué)習(xí)模型對第一語義序列進(jìn)行處理,以獲得第二語義序列,其中,第二語義序列的每個元素與第一語義序列中的每個詞向量對應(yīng),并且體現(xiàn)了與該詞向量有關(guān)的上下文信息;基于待處理文檔中的各個詞在預(yù)先獲得的文檔和語句對數(shù)據(jù)庫中的匹配結(jié)果,分別對第二語義序列中的各個元素進(jìn)行加權(quán)處理;以及利用序列標(biāo)注模型對加權(quán)處理后的第二語義序列進(jìn)行標(biāo)注,并基于標(biāo)注結(jié)果獲取待處理文檔中的目標(biāo)語句,其中,深度學(xué)習(xí)模型和序列標(biāo)注模型是利用標(biāo)記好的訓(xùn)練文檔和訓(xùn)練語句而預(yù)先訓(xùn)練獲得的。
根據(jù)本公開的第二方面,提供了一種問題生成方法,用于基于待處理文檔生成問題。該方法包括:利用本公開的第一方面的一種問題生成方法從待處理文檔中提取出目標(biāo)語句作為回答,并將其轉(zhuǎn)換為由詞向量表示的回答語義序列;利用編碼模型對回答語義序列進(jìn)行處理,以獲得編碼語義序列,編碼語義序列的每個元素與回答語義序列中的每個詞向量對應(yīng),并且體現(xiàn)了與該詞向量有關(guān)的上下文信息;基于所提取的目標(biāo)語句中的各個詞在預(yù)先獲得的問題和回答對數(shù)據(jù)庫中的匹配結(jié)果,分別對編碼語義序列中的各個元素進(jìn)行加權(quán)處理;以及利用解碼模型對加權(quán)處理后的編碼語義序列進(jìn)行處理,以獲得解碼語義序列,作為與所提取的目標(biāo)語句對應(yīng)的問題,其中,解碼語義序列中的當(dāng)前元素是解碼模型基于加權(quán)處理后的編碼語義序列以及解碼語義序列中的前一元素進(jìn)行處理而獲得的,其中,編碼模型和解碼模型是利用標(biāo)記好的訓(xùn)練回答和訓(xùn)練問題而預(yù)先訓(xùn)練獲得的、基于深度學(xué)習(xí)的模型。
依據(jù)本公開的再一方面,還提供了一種信息處理設(shè)備,其包括處理器,該處理器被配置為執(zhí)行本公開第一方面的目標(biāo)語句提取方法。
替選地,本公開還可以提供一種信息處理設(shè)備,其包括處理器,該處理可以被配置為執(zhí)行本公開第二方面的問題生成方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于富士通株式會社,未經(jīng)富士通株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810827532.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 目標(biāo)檢測裝置、學(xué)習(xí)裝置、目標(biāo)檢測系統(tǒng)及目標(biāo)檢測方法
- 目標(biāo)監(jiān)測方法、目標(biāo)監(jiān)測裝置以及目標(biāo)監(jiān)測程序
- 目標(biāo)監(jiān)控系統(tǒng)及目標(biāo)監(jiān)控方法
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤設(shè)備
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤裝置
- 目標(biāo)檢測方法和目標(biāo)檢測裝置
- 目標(biāo)跟蹤方法、目標(biāo)跟蹤裝置、目標(biāo)跟蹤設(shè)備
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)跟蹤系統(tǒng)及目標(biāo)跟蹤方法
- 基于聊天大數(shù)據(jù)知識庫的機(jī)器人對話控制方法和系統(tǒng)
- 基于大數(shù)據(jù)搜索的幽默型機(jī)器人對話控制方法和系統(tǒng)
- 基于對話知識庫的機(jī)器人對話控制方法和系統(tǒng)
- 一種自然語言語句評價方法及裝置
- 句子級雙語對齊方法及系統(tǒng)
- 一種獲取相似語句的方法、裝置、存儲介質(zhì)及電子設(shè)備
- 一種翻譯模型結(jié)果重排序的方法及裝置
- 用于輸出信息的方法、裝置、設(shè)備以及存儲介質(zhì)
- 搜索推薦方法和裝置、服務(wù)器、計算機(jī)可讀存儲介質(zhì)
- 文本識別方法、裝置、電子設(shè)備和可讀存儲介質(zhì)





