[發明專利]一種閱讀機器人進行自動問答的系統及其應用方法有效
| 申請號: | 202010183798.3 | 申請日: | 2020-03-16 |
| 公開(公告)號: | CN111309891B | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 楊陟卓;李春轉;張虎;錢揖麗;李茹 | 申請(專利權)人: | 山西大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/279;G06F40/30 |
| 代理公司: | 太原申立德知識產權代理事務所(特殊普通合伙) 14115 | 代理人: | 郭海燕 |
| 地址: | 030006*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 閱讀 機器人 進行 自動 問答 系統 及其 應用 方法 | ||
1.一種閱讀機器人進行自動問答的系統,其特征在于:包括有題型分析模塊、詞語相似度匹配模塊、段落主題句和作者觀點句抽取模塊以及答案句抽取模塊,所述題型分析模塊,用于通過獲取材料和問句信息,判別是否為概括型問答題;所述詞語相似度匹配模塊,用于獲取材料各句子與問句的詞語相似度匹配數;所述段落主題句和作者觀點句抽取模塊,用于通過識別段落主題句和作者觀點句,生成與問句相關的內容要點以及作者的觀點態度;所述答案句抽取模塊,根據問答題類型采取不同策略抽取候選句,對候選句進行排序,最終選取排序靠前的候選句作為答案句,
應用所述一種閱讀機器人進行自動問答的系統進行自動問答的系統的方法,包括有如下步驟:
第一步:獲取閱讀理解的背景材料與問句;
第二步:題型分析,包括有以下步驟:
S1:形式化處理,用于對問句和材料進行形式化處理;所述形式化處理,具體為:將背景材料按照所屬材料、段落、句子進行形式化處理,即其中di表示所屬第i則材料,pj表示所屬第j段落,sk表示所屬第k句;對問句進行分詞去停用詞,得到問句關鍵詞,即Q=<K1,K2,......,Km>,Ki表示第i個關鍵詞;
S2:通過分析材料和問句信息,判別問題類型是否是概括型問答題,具體有如下幾種方法:
方法一:通過問句類型,如果為抽象型問題,則符合概括型問答題的特征;
方法二:依據段落匹配數目:對問句與背景材料句子進行匹配,統計每段的匹配情況,如果匹配的段落數目超過預定的閾值,則符合概括型問答題的特征;
方法三:通過問句出處段句子數目:根據關鍵字匹配定位問句出處段,并統計該段的句子數目,如果超過預定的閾值,則符合概括型問答題的特征;
方法四:根據背景材料的段落和句子數目:若段落數或者句子數超過預定的閾值,則符合概括型問答題的特征;
方法五:將各個特征通過線性插值的方法進行計算,超過預定閾值,判斷為概括型問答題,否則為其他類型問答題;
第三步:根據問題類型采取不同策略抽取候選句,具體為:如果該問答題是概括型問答題,利用詞語相似度匹配、段落主題句和作者觀點句的方法對材料中各句子進行加權計算,計算公式為:
S=λ1*ScoresumWord+λ2*Scoretopic+λ3*Scoreopinion
其中,λk為第k個維度的權重,k∈[1,K],且0≤λk≤1,
否則,利用詞語相似度匹配的方法進行計算,其計算公式為:
然后根據各候選句的得分高低進行排序,最終選取排序的前六句作為答案句;
第四步:候選句排序,根據各候選句的得分高低進行排序;
第五步:輸出排序的前六句作為答案句。
2.一種應用權利要求1所述的閱讀機器人進行自動問答的系統的方法,其特征在于:所述詞語相似度匹配具體為:對問句以及材料各句子Si進行關鍵詞提取,然后融合Hownet和word2vec詞向量,計算問句與材料各句子的詞匯相似度ScoresumWord。
3.一種應用權利要求2所述的閱讀機器人進行自動問答的系統的方法,其特征在于:所述段落主題句和作者觀點句的方法分別通過段落主題句抽取模塊、作者觀點句抽取模塊實現,其中,段落主題句抽取模塊,用于綜合位置信息和句間語義相似性抽取段落主題句;作者觀點句抽取模塊,用于綜合位置信息、句間語義相似性和基于提示性詞的啟發式規則抽取作者的觀點態度句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山西大學,未經山西大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010183798.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能型基氏流動度測定儀
- 下一篇:積分柱調節裝置





