[發(fā)明專(zhuān)利]一種基于文本摘要的非事實(shí)類(lèi)問(wèn)答答案選擇方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201810428163.8 | 申請(qǐng)日: | 2018-05-07 |
| 公開(kāi)(公告)號(hào): | CN108681574B | 公開(kāi)(公告)日: | 2021-11-05 |
| 發(fā)明(設(shè)計(jì))人: | 馬榮強(qiáng);張健;李淼;陳雷;高會(huì)議 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院 |
| 主分類(lèi)號(hào): | G06F16/33 | 分類(lèi)號(hào): | G06F16/33;G06F16/332;G06F16/34;G06F40/289;G06F40/30;G06F40/211 |
| 代理公司: | 合肥天明專(zhuān)利事務(wù)所(普通合伙) 34115 | 代理人: | 奚華保 |
| 地址: | 230031 安徽*** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 文本 摘要 事實(shí) 問(wèn)答 答案 選擇 方法 系統(tǒng) | ||
本發(fā)明公開(kāi)了一種基于文本摘要的非事實(shí)類(lèi)問(wèn)答答案選擇方法及系統(tǒng),屬于智能檢索技術(shù)領(lǐng)域,包括抽取所述待選擇答案文本的首句和尾句;利用文本摘要模型TextRank對(duì)待選擇答案文本除首句和尾句之外剩余的文本進(jìn)行摘要抽取,得到初步文本摘要;將首句、初步文本摘要以及尾句依次組合,得到待選擇的答案文本摘要;將問(wèn)句和待選擇的答案文本摘要作為神經(jīng)網(wǎng)絡(luò)語(yǔ)義表示模型的輸入,得到問(wèn)句和待選擇的答案文本摘要的語(yǔ)義相關(guān)程度;將與問(wèn)句語(yǔ)義相關(guān)程度最高的答案文本摘要作為答案返回。本發(fā)明在進(jìn)行答案摘要抽取時(shí),提取答案文本的首句和尾句作為摘要的組成部分,保證了提取到的文本摘要的主題完整性,從而提高了答案選擇的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及智能檢索技術(shù)領(lǐng)域,特別涉及一種基于文本摘要的非事實(shí)類(lèi)問(wèn)答答案選擇方法及系統(tǒng)。
背景技術(shù)
目前,問(wèn)答系統(tǒng)已成為自然語(yǔ)言處理領(lǐng)域一項(xiàng)重要的研究課題,被用于信息獲取的多個(gè)領(lǐng)域,比如信息檢索、專(zhuān)家系統(tǒng)、自動(dòng)問(wèn)答以及人機(jī)自然語(yǔ)言交互等。問(wèn)答系統(tǒng)與信息檢索相比不同之處在于其不需要用戶自己尋找答案,而是直接返回答案。
根據(jù)問(wèn)答系統(tǒng)不同的數(shù)據(jù)來(lái)源,分為三類(lèi)問(wèn)答系統(tǒng):基于結(jié)構(gòu)化數(shù)據(jù)的問(wèn)答系統(tǒng)、基于自由文本的問(wèn)答系統(tǒng)和基于問(wèn)題答案對(duì)的問(wèn)答系統(tǒng)。其中,基于問(wèn)題答案對(duì)的問(wèn)答系統(tǒng)的工作流程是用戶提出問(wèn)題后通過(guò)語(yǔ)意特征分析將與語(yǔ)義最匹配的答案返回,其數(shù)據(jù)主要來(lái)自網(wǎng)絡(luò)社區(qū)問(wèn)答。
早期對(duì)答案選擇方法的研究一般基于傳統(tǒng)語(yǔ)義特征提取,人工選取文本特征,然后利用高性能分類(lèi)器進(jìn)行訓(xùn)練,利用人工定義特征來(lái)進(jìn)行語(yǔ)義表示的方法可解釋性比較強(qiáng),其特征的選取覆蓋了整個(gè)數(shù)據(jù)集。選取的特征主要是從答案文本內(nèi)容上體現(xiàn)出來(lái)的語(yǔ)句質(zhì)量和問(wèn)題答案與答案內(nèi)容上的相關(guān)性。人工選取的特征一般包括單詞的N元語(yǔ)言模型、句法結(jié)構(gòu)和語(yǔ)法依存關(guān)系等。早期的研究者在進(jìn)行答案選擇方法的研究時(shí),最常用的方法就是借助已有的自然語(yǔ)言處理工具對(duì)所要處理的文本進(jìn)行分詞、詞性標(biāo)注或句法分析后,訓(xùn)練基于人工定義特征的答案選擇模型。
然而,非事實(shí)類(lèi)問(wèn)答中的答案文本形式具有多邊性,且存在噪聲信息,利用一般的語(yǔ)言規(guī)則難以匹配到正確答案。故,針對(duì)非事實(shí)類(lèi)問(wèn)答系統(tǒng)的答案選擇任務(wù),目前的主流方法是基于標(biāo)準(zhǔn)文本利用有監(jiān)督的機(jī)器學(xué)習(xí)方法對(duì)文本的語(yǔ)義信息進(jìn)行挖掘,比如:
利用SVM模型來(lái)對(duì)單詞級(jí)別的匹配特征進(jìn)行訓(xùn)練,如關(guān)鍵詞匹配特征、短語(yǔ)級(jí)別的非語(yǔ)義類(lèi)特征,還有一些基于命名實(shí)體的特征等。還有的研究者通過(guò)自然語(yǔ)言處理工具來(lái)對(duì)文本的特征進(jìn)行提取,從而開(kāi)發(fā)了一系列與答案質(zhì)量有關(guān)的詞法特征包括是否包含標(biāo)點(diǎn)、超鏈接、特殊詞的數(shù)量、詞性和命名實(shí)體特征和N元語(yǔ)言模型的頻率等。采用句法樹(shù)可以更好地捕捉到句子的局部結(jié)構(gòu)化信息,基于句法樹(shù)的答案選方法可以有效減少特征選擇的工作量。利用句法和語(yǔ)義特征相結(jié)合的辦法來(lái)進(jìn)行答案選擇,句法方面通過(guò)計(jì)算問(wèn)題和答案的依存句法樹(shù)之間的樹(shù)編輯距離,而語(yǔ)義方面使用諸如實(shí)體類(lèi)型、同義詞等淺層語(yǔ)義特征。
其中,樹(shù)編輯距離是計(jì)算從兩棵樹(shù)轉(zhuǎn)換過(guò)程中所需要的操作(插入、刪除和替換)的總耗散值,其計(jì)算過(guò)程與字符串的編輯距離類(lèi)似,使用條件隨機(jī)場(chǎng)(Conditional RandomFields,CRF)對(duì)問(wèn)答中的序列進(jìn)行標(biāo)注,實(shí)用的特征包括樹(shù)編輯距離和字符串編輯距離等。這是首次將社區(qū)問(wèn)答的答案選擇問(wèn)題轉(zhuǎn)換為了序列標(biāo)注問(wèn)題。除了句法樹(shù),還有一些研究者從語(yǔ)言模型和詞向量的角度比較問(wèn)題和答案文本的相關(guān)性,例如使用基于翻譯的模型來(lái)比較問(wèn)題與答案的相關(guān)程度,把問(wèn)題和候選答案看做兩種不同的語(yǔ)言。
基于傳統(tǒng)語(yǔ)義特征提取的答案選擇方法往往有很好的可解釋性,通過(guò)人工選取的特征都可以找到其依據(jù),容易使人理解。但是在利用此方法進(jìn)行答案選擇時(shí),也會(huì)存在一些缺陷:一是,其依賴(lài)于一些與自然語(yǔ)言領(lǐng)域基礎(chǔ)研究相關(guān)的工具包,這就使得所選取特征的效果依賴(lài)于基礎(chǔ)研究的效果。特征提取的思想可能很有依據(jù),但面對(duì)結(jié)構(gòu)復(fù)雜的文本,無(wú)法取得想要的結(jié)果。二是,答案選擇模型中提取的特征最終取決于人的選擇,模型沒(méi)有自學(xué)能力,導(dǎo)致了模型應(yīng)用的局限性。
發(fā)明內(nèi)容
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院,未經(jīng)中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810428163.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 基于增強(qiáng)星型模型的立方體元數(shù)據(jù)及查詢(xún)語(yǔ)句生成
- 用于事實(shí)認(rèn)證的方法和裝置
- 一種基于雪花模型的多個(gè)HBase表關(guān)聯(lián)方法
- 一種基于時(shí)間知識(shí)抽取的文本摘要自動(dòng)生成方法及系統(tǒng)
- 一種使用LDA主題模型對(duì)法律判決文書(shū)進(jìn)行相似度匹配的方法
- 事實(shí)識(shí)別的校正方法及裝置
- 一種事實(shí)關(guān)系確定方法及裝置
- 案件裁判方法、裝置和系統(tǒng)
- 入侵調(diào)查
- 基于碎片化知識(shí)下的卷積嵌入表示推理方法





