[發明專利]一種面向任務的非結構化信息智能問答系統構建方法有效
| 申請號: | 201811558102.X | 申請日: | 2018-12-19 |
| 公開(公告)號: | CN109800284B | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 丁蔚然;姜曉夏;葛唯益;王羽;王振宇 | 申請(專利權)人: | 中國電子科技集團公司第二十八研究所 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/332;G06F16/36 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華;于瀚文 |
| 地址: | 210007 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 任務 結構 信息 智能 問答 系統 構建 方法 | ||
1.一種面向任務的非結構化信息智能問答系統構建方法,其特征在于,包括如下步驟:
步驟1、構建后臺索引:對非結構化的文本按單句和段落進行切分,段落級索引的字段包括段落ID、段落內容、段落所在文章中的位置、段落所在文章ID;句子級索引的字段包括句子ID、句子內容、句子所在段落位置、句子所在段落ID、該段落在文章中的位置、句子所在文章ID;對句子和段落分別建立二級全文索引,為用戶查詢提供檢索支持;
步驟2、對用戶問題請求的相關操作分別采用Hanlp和StanfordNLP工具包進行中文分詞和詞性標注,得到問題請求的詞語集合以及各詞的類型;
在系統構建之前,構建提示詞表,用于對用戶問題請求進行基于詞語規則的初歸類,只要用戶的請求中出現了詞表中的詞匯,同時句法分析結果符合此類別要求,則將問題請求歸為該類問題,系統根據提示詞表判斷用戶請求可能的任務類型后,再對用戶的問題請求通過StanfordNLP工具包進行句法分析以獲取句法特征,匹配期望答案類型,生成查詢請求表達式,查詢請求表達式包含了查詢的關鍵詞以及期望答案的類型;
步驟3、對于每一項任務,配置任務拓展詞典,詞典包含了用戶請求中常見詞的同義詞、近義詞、領域相關詞匯以及詞權重配置;根據問句的任務類型、分詞和詞性標注結果,生成查詢請求表達式,使用任務拓展詞典對查詢請求的關鍵詞進行拓展與組合,分別轉換成句子級和段落級索引查找條件和兜底查詢條件,依據不同的任務調整查詢關鍵詞的權重和排序要求;
步驟4、優先在句子級索引中查找,如果沒有查詢到結果或者結果數過少,則將查詢請求在段落級索引中再次查找,如果還是沒有足夠的結果數,則使用兜底查詢條件進行二次查找,最終生成候選結果集;
步驟5、將候選結果集按照任務對應的排序策略進行個性化排序,默認按相關度得分進行排序,并歸一化相關度得分值,得分在0至1之間,取相關度得分最高的三個結果作為下一步的候選答案;如果候選結果相關度差距小于設定的閾值,則按照時間排序,取距離當前時間最近的三個結果為下一步的候選答案;
步驟6、將候選答案按標點符號進行短句切分,統計檢索關鍵詞所在位置,包括實體詞和屬性詞,基于任務的期望答案進行命名實體識別,統計關鍵詞與期望答案類型相符的短語之間距離,依據設定窗口大小過濾期望答案類型短語與檢索關鍵詞之間距離過大的結果;
步驟7、找到距離屬性詞最近的且符合期望答案類型的位置標記為可能的問題答案,并輸出結果。
2.根據權利要求1所述的方法,其特征在于,步驟2中,用戶的請求期望答案類型定義為三類:天氣型,時間型,數字型;每一類用戶請求都有對應的提示詞表,提示詞表是根據用戶請求中分詞結果集合高頻詞統計得出,或者手動對詞表進行擴充;如果用戶問題請求的分詞和句法分析結果中包括了提示詞表中的詞則將該問題分入該類別,句法分析得到的句法特征包括句法構成樹及句法依賴圖,具體做法是設置實體名詞之前或之后在特定窗口長度包含詞的詞性、實體類型作為中心詞的特征標準,識別問句中兩個實體名詞為中心詞,通過句法分析得到中心詞在句法構成樹中最短路徑包含的詞性標簽及其長度和在句法依賴圖中的依賴路徑及其長度作為問句的句法特征,特征符合提示詞匹配到的類型的句法特征,即將此用戶的問題請求進行歸類處理。
3.根據權利要求2所述的方法,其特征在于,步驟4中,優先對句子級索引進行查詢,如果查不到或者查詢到結果個數不滿三個再去查詢段落級索引;句子級索引查詢條件必須用邏輯表達式連接各查詢關鍵詞,步驟2中得到的分詞結果需根據提示詞表進行拓展,各查詢關鍵詞之間用與連接,提示詞之間用或連接;對于兜底查詢條件,各查詢關鍵詞之間用或連接,提示詞之間也使用或連接,關鍵詞設置兩倍于普通詞語的權重;排序策略必須根據任務的要求進行調整,能夠設置兩個以上排序字段,并設置優先級。
4.根據權利要求3所述的方法,其特征在于,步驟4中,首先根據句子查詢條件去查詢,必須包含所有的關鍵詞,返回的查詢結果數量多于三個則直接返回結果;如果查詢的結果小于三個則需要從段落級索引中進行查詢補齊結果數量;如果在句子級和段落級索引都沒有查找到結果,則啟用兜底查詢條件進行查找。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第二十八研究所,未經中國電子科技集團公司第二十八研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811558102.X/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





