[發(fā)明專利]一種基于語義依存樹的答案抽取方法有效
| 申請?zhí)枺?/td> | 201810239159.7 | 申請日: | 2018-03-22 |
| 公開(公告)號: | CN108595413B | 公開(公告)日: | 2021-11-09 |
| 發(fā)明(設(shè)計)人: | 周蕾;史維峰 | 申請(專利權(quán))人: | 西北大學(xué) |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/30;G06F40/289;G06F16/332;G06F16/951;G06F16/9532 |
| 代理公司: | 西安恒泰知識產(chǎn)權(quán)代理事務(wù)所 61216 | 代理人: | 李婷;周春霞 |
| 地址: | 710069 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語義 依存 答案 抽取 方法 | ||
本發(fā)明公開了一種基于語義依存樹的答案抽取方法,該方法在考慮問句和候選答案句之間的語義關(guān)系的基礎(chǔ)上,綜合考慮向量相似度、詞形相似度和依存路徑長度相似度,在候選答案句中選取最佳答案,相比于其他算法在選擇最佳答案句的準(zhǔn)確率上有較大提升。
技術(shù)領(lǐng)域
本發(fā)明屬于自動問答(QA)領(lǐng)域,涉及一種基于語義依存樹的答案抽取方法。
背景技術(shù)
自動問答系統(tǒng)作為一種新型的搜索引擎,為用戶返回精確、簡潔的答案,其處理流程為三個模塊:問題解析,信息檢索,答案抽取。其中,答案抽取算法是答案抽取模塊的核心研究問題,算法性能會最直接的影響問答系統(tǒng)用戶體驗。
答案抽取算法的基本流程是將信息檢索模塊的結(jié)果——排序的段落,作為輸入,通過計算分析,選擇一個計算權(quán)重最高的、與用戶問題最相關(guān)的、準(zhǔn)確、簡潔的答案,返回給用戶,而不僅僅滿足于提供一個含有答案的網(wǎng)頁鏈接。因此,答案抽取模塊的本質(zhì)即為計算候選答案句和查詢句的相似度。
常見的答案抽取算法主要有三種:基于模式匹配的算法,該算法的實現(xiàn)無需關(guān)心句子的語法語義信息,通過預(yù)先定義的答案和問句之間的模式,匹配問句的答案。其模式可以通過手工編輯或機(jī)器學(xué)習(xí)自動生成的方式實現(xiàn),通過人工總結(jié)模式匹配的方式需要耗費大量的精力和時間,需手工編輯抽取規(guī)則,總結(jié)存在的模式,但準(zhǔn)確率要更高。通過機(jī)器學(xué)習(xí)進(jìn)行模式匹配的方式,依賴于標(biāo)注語料,通過語料總結(jié)問句和答案的共現(xiàn)短語或結(jié)構(gòu),自動學(xué)習(xí),進(jìn)行結(jié)構(gòu)提取得到模式,進(jìn)行模式匹配。基于向量空間模型的算法,該算法框架清晰,實現(xiàn)簡單且效果較好,被廣泛的應(yīng)用在文本檢索領(lǐng)域中的相似度計算排序的實現(xiàn)。在答案抽取中,通過VSM計算各個候選答案和問句之間的相似度,對候選答案進(jìn)行排序,得到最可能的答案。向量空間模型的計算,假設(shè)各個特征詞相互獨立,雖然在一定程度上簡化了計算量,但忽略了特征詞之間的語義相關(guān)性。基于語法結(jié)構(gòu)的算法通過提取問句和答案句的語法結(jié)構(gòu)和語義信息,進(jìn)行相似度的計算,將相似度作為句法匹配度,對候選答案排序,并返回匹配度最高的答案。
基于語法結(jié)構(gòu)的算法相比于其他算法,通過語義依存分析來進(jìn)行語義深層理解,算法性能更好,其中效果較好的算法是基于語義依存樹的算法。現(xiàn)有的基于語義依存樹的算法中,雖然得到了更全面的語義信息,但計算異常復(fù)雜,沒有考慮詞頻、句法結(jié)構(gòu)、關(guān)鍵詞之間的關(guān)聯(lián)等特征,往往不能取得良好的效果。
發(fā)明內(nèi)容
基于上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的在于,提供一種基于語義依存樹的答案抽取方法,該方法能夠大大降低計算復(fù)雜度的同時,且提高選取問句的最佳答案的準(zhǔn)確率。
為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
一種基于語義依存樹的答案抽取方法,包括以下步驟:
步驟1,利用語義技術(shù)平臺對問句和多個候選答案句分別進(jìn)行依存句法分析,得到問句的語義分析結(jié)果和每個候選答案句的語義分析結(jié)果;語義分析結(jié)果包括語義依存圖和語義依存樹;
步驟2,選取多個候選答案句中的一個候選答案句,計算該候選答案句的語義依存樹與問句的語義依存樹之間的向量相似度Simtree;
步驟3,計算問句和步驟2中選取的候選答案句的詞形相似度Simword,采用的公式如下:
其中,wi為對問句進(jìn)行問題解析得到的關(guān)鍵詞列表中的第i個關(guān)鍵詞,m為對問句進(jìn)行問題解析得到的關(guān)鍵詞列表中關(guān)鍵詞的總數(shù),pl為問句的長度,sl為候選答案句的長度;
步驟4,計算問句和步驟2中選取的候選答案句的依存路徑長度相似度,具體方法如下:
步驟4.1,對候選答案句采用jieba分詞工具包進(jìn)行分詞,得到多個詞項;
步驟4.2,在多個詞項中找到與問句對應(yīng)的關(guān)鍵詞相同的詞項,作為匹配詞項;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北大學(xué),未經(jīng)西北大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810239159.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





