[發(fā)明專利]一種基于語義依存樹的答案抽取方法有效
| 申請?zhí)枺?/td> | 201810239159.7 | 申請日: | 2018-03-22 |
| 公開(公告)號: | CN108595413B | 公開(公告)日: | 2021-11-09 |
| 發(fā)明(設(shè)計)人: | 周蕾;史維峰 | 申請(專利權(quán))人: | 西北大學(xué) |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/30;G06F40/289;G06F16/332;G06F16/951;G06F16/9532 |
| 代理公司: | 西安恒泰知識產(chǎn)權(quán)代理事務(wù)所 61216 | 代理人: | 李婷;周春霞 |
| 地址: | 710069 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語義 依存 答案 抽取 方法 | ||
1.一種基于語義依存樹的答案抽取方法,其特征在于,包括以下步驟:
步驟1,利用語義技術(shù)平臺對問句和多個候選答案句分別進(jìn)行依存句法分析,得到問句的語義分析結(jié)果和每個候選答案句的語義分析結(jié)果;語義分析結(jié)果包括語義依存圖和語義依存樹;
步驟2,選取多個候選答案句中的一個候選答案句,計算該候選答案句的語義依存樹與問句的語義依存樹之間的向量相似度Simtree;
所述的計算該候選答案句的語義依存樹與問句的語義依存樹之間的向量相似度Simtree,采用的方法如下:
步驟2.1:找到問句的語義依存樹T1的所有子樹以及候選答案句的語義依存樹T2的所有子樹,所有子樹形成子樹序列t1,...,tk,...tn,子樹序列中的任意兩個子樹不相同,其中,tk表示子樹序列中的第k個子樹,n表示子樹序列中子樹的個數(shù);
步驟2.2:計算該候選答案句的語義依存樹與問句的語義依存樹之間的向量相似度Simtree,采用的公式如下:
其中,T1為問句的語義依存樹,T2為候選答案句的語義依存樹,hk(T1)為子樹序列中的第k個子樹在問句的語義依存樹T1中出現(xiàn)的次數(shù),hk(T2)為子樹序列中的第k個子樹在候選答案句的語義依存樹T2中出現(xiàn)的次數(shù);
步驟3,計算問句和步驟2中選取的候選答案句的詞形相似度Simword,采用的公式如下:
其中,wi為對問句進(jìn)行問題解析得到的關(guān)鍵詞列表中的第i個關(guān)鍵詞,m為對問句進(jìn)行問題解析得到的關(guān)鍵詞列表中關(guān)鍵詞的總數(shù),pl為問句的長度,sl為候選答案句的長度;
步驟4,計算問句和步驟2中選取的候選答案句的依存路徑長度相似度,具體方法如下:
步驟4.1,對候選答案句采用jieba分詞工具包進(jìn)行分詞,得到多個詞項(xiàng);
步驟4.2,在多個詞項(xiàng)中找到與問句對應(yīng)的關(guān)鍵詞相同的詞項(xiàng),作為匹配詞項(xiàng);
步驟4.3,采用如下公式計算問句和候選答案句的依存路徑長度相似度Simpath:
其中,wi,wj分別表示匹配詞項(xiàng)中的第i個匹配詞項(xiàng)和第j個匹配詞項(xiàng),a表示匹配詞項(xiàng)的個數(shù);path-len(wi,wj)表示匹配詞項(xiàng)wi和匹配詞項(xiàng)wj的依存路徑長度;
步驟5,根據(jù)向量相似度Simtree、詞形相似度Simword和依存路徑長度相似度Simpath,計算得到整體相似度Sim,采用如下公式計算:
Sim=α·Simtree+β·Simword+γ·Simpath
其中,α,β和γ均為調(diào)權(quán)參數(shù);
步驟6,返回步驟2,在多個候選答案句中重新選取一個候選答案句,得到所有候選答案句對應(yīng)的整體相似度;選擇整體相似度中的最大值對應(yīng)的候選答案句即為問句的最佳答案句。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北大學(xué),未經(jīng)西北大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810239159.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





