[發明專利]一種面向知識庫問答的模板自動生成方法有效
| 申請號: | 201910604477.3 | 申請日: | 2019-07-05 |
| 公開(公告)號: | CN110532358B | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 李慧穎;徐澤建;趙暢;陳永銳 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 葉涓涓 |
| 地址: | 211189 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 知識庫 問答 模板 自動 生成 方法 | ||
1.一種面向知識庫問答的模板自動生成方法,其特征在于,包括以下步驟:
步驟1,關系詞典構建
從帶標注的文本語料中得到若干半結構化信息;給定語料中的句子,如果該句子含有且僅含有兩個實體提及m1和m2,且兩個實體提及之間的短語p不超過四個單詞,同時在知識庫中兩個實體提及對應的實體e1和e2之間存在關系r,則得到短語p與關系r的映射f;以映射f在語料中出現的次數除以短語p在語料中出現的次數作為該映射的置信度;從語料中得到所有的映射及其置信度構成關系詞典;
映射f的置信度計算公式為:
其中,count(f)為映射f出現的次數,count(p)為短語在語料在出現的次數;
步驟2,查詢圖構建
根據問題答案對,在知識庫中搜索包括問題實體和答案實體的最小連通圖,將連通圖中的CVT節點替換為變量節點,將答案實體也替換為變量節點,得到查詢圖;
步驟3,將自然語言問題與查詢圖對齊
尋找自然語言問題和查詢圖之間的映射,首先根據實體鏈接結果進行實體對齊,將問題中實體提及與查詢圖中實體節點對齊;然后去除問題中所有實體提及,保留問題中其他詞語;根據問題中其他詞語以及查詢圖中關系,查詢關系詞典,若詞條中關系與查詢圖中關系完全一致,且詞條中短語是問題詞語的子序列,則認為問題中的短語與關系之間存在映射,映射的置信度為該詞條的置信度,將問題中詞語與查詢圖中關系對齊;所述步驟2中,如果問題對應多個答案,每個答案生成的查詢圖不同,只保留F1值最高的查詢圖;
對于給定問題q和答案集A={a1,a2,…,an},F1值計算公式為:
其中,TP=|A*∩A|,FP=|A*-A|,FN=|A-A*|,A*為該查詢圖從知識庫中獲得的答案集合;
步驟4,問題模板和查詢模板自動生成
對問題做依存句法分析和詞性標注,得到句法依存樹,抽取句法依存樹中包含實體提及和關系提及的最小子樹,使用詞性標簽代替原有詞生成問題模板;
在步驟2構建的查詢圖基礎上,用步驟3中的對齊標簽代替具體的關系和實體,生成查詢模板;
將問題模板與查詢模板一起加入模板庫。
2.根據權利要求1所述的面向知識庫問答的模板自動生成方法,其特征在于,所述關系詞典中映射及其置信度合作為一個詞條。
3.根據權利要求1所述的面向知識庫問答的模板自動生成方法,其特征在于,所述步驟3中如果關系詞典中存在多個映射滿足要求,則選擇置信度最高的映射,用于將問題中詞語與查詢圖中關系對齊。
4.根據權利要求1所述的面向知識庫問答的模板自動生成方法,其特征在于,所述步驟4中對問題詞性標注結果進行抽象,將同類的詞性標簽抽象為一個標簽。
5.根據權利要求1所述的面向知識庫問答的模板自動生成方法,其特征在于,所述步驟4中將詞性標簽NNS、NNP、NNPS抽象為一個NN標簽,將詞性標簽RBR、RBS抽象為一個RB標簽,將詞性標簽WDT、WP、WP$、WRB抽象為一個WB標簽,將詞性標簽JJR、JJS抽象為一個JJ標簽,將詞性標簽PRP$抽象為一個PRP標簽,將詞性標簽VBD、VBG、VBN、VBP、VBZ抽象為一個VB標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910604477.3/1.html,轉載請聲明來源鉆瓜專利網。





